当前位置：首页 » AI开源项目

北交大开源 CutClaw：自动踩点音乐的 AI 视频剪辑师

3月前 AI开源项目 523 0

做视频剪辑的人都懂，从几小时的素材里剪出一段踩点精准、叙事流畅的短视频有多折磨人。

特别是对于旅拍博主和 Vlogger 来说，拍了一天 5-6 小时的素材，回来还要花好几个小时慢慢剪，真正的创作热情都被这种机械劳动消磨掉了。

苏米注：更别说搞营销的，要批量生成不同风格的宣传片，工作量更是大到离谱。

最近看到大湾区大学 GVC 实验室和北京交通大学团队开源的 CutClaw，彻底解决了这个痛点。

这玩意儿不是简单的 AI 剪辑，而是一个模拟专业后期流程的多智能体系统，能把几小时的长视频和一段音乐丢进去，给一句文字指令，它就能自动剪出一部叙事性、节奏感、视觉都在线的电影感短片。

项目简介

简单说，CutClaw 是一个端到端的长视频 + 音乐剪辑系统。

它先把原始的视频和音频拆解成结构化的字幕，然后用多智能体流水线来规划镜头、选择片段时间戳、验证最终质量，最后渲染出成片。

核心亮点

1. 音乐驱动剪辑，而不是后配 BGM

这是 CutClaw 最核心的亮点。

绝大多数 AI 剪辑工具都是先剪好视频再配音乐，或者只是简单地把剪辑点和音乐节拍对齐，但 CutClaw 是真正的音乐驱动剪辑决策。

它会先分析音乐的节拍、重拍、音高、能量曲线，把音乐拆解成主歌、副歌这样的结构单元，然后让视觉叙事严格对应到这个听觉骨架上。

苏米注：每个音乐段落分配什么样的场景，每个剪辑点落在哪一拍，都是由音乐决定的。这才是真正的音画合一。

2. 一句话指令，AI 自动理解风格

你不需要手动拉时间轴，不需要一个个选片段，只需要给一句文字指令，CutClaw 就能自动理解并执行。

这种指令控制不是简单的关键词匹配，而是通过多智能体系统来理解你的意图，然后转化成具体的剪辑决策。

3. 智能自动裁剪，适配各社交平台

现在的视频要发抖音、小红书、视频号，每个平台的比例都不一样。CutClaw 有内容感知裁剪功能，能自动识别画面中的核心主体，然后调整画面比例，适配各种社交平台。

4. 一键解构，素材变成可搜索的资产

第一次处理视频时，CutClaw 会进行素材解构，把几小时的长视频拆分成镜头、场景，给每个镜头生成语义描述，包括摄影手法、人物动态、环境等等。

音频方面也会提取节拍、音高、能量，生成结构化的音频标注。

苏米注：这个解构过程虽然第一次慢一点，但后面再用同样的素材剪辑时，就可以直接复用缓存结果，速度会快很多。而且这些结构化的素材也变成了可搜索的资产，你以后想找某个场景也很方便。

快速上手

环境配置

首先克隆仓库，创建环境：

git clone https://github.com/GVCLab/CutClaw.git
cd CutClaw
conda create -n CutClaw python=3.12
conda activate CutClaw
pip install -r requirements.txt

官方强烈推荐使用 GPU 加速的 Decord/NVDEC 构建，可以大幅提升视频解码速度。

素材准备

把你的素材放到对应的目录：

resource/
├── video/      # 放你的 .mp4 / .mkv 视频
├── audio/      # 放你的 .mp3 / .wav 音乐
└── subtitle/   # 可选的 .srt 字幕文件，可以跳过 ASR

运行方式

方式一：Streamlit 可视化界面（推荐）

streamlit run app.py

然后在浏览器打开 http://localhost:8501。在界面里直接选择你放好的视频和音频文件，输入指令就可以了。

方式二：CLI 命令行（高级用户）

python local_run.py \
  --Video_Path "resource/video/你的视频.mp4" \
  --Audio_Path "resource/audio/你的音乐.mp3" \
  --Instruction "你的剪辑指令"

你还可以覆盖配置参数，比如：

python local_run.py \
  --Video_Path "resource/video/xxxx.mp4" \
  --Audio_Path "resource/audio/xxxx.mp3" \
  --Instruction "xxxx" \
  --config.MAIN_CHARACTER_NAME "主角名字" \
  --config.VIDEO_FPS 2 \
  --config.AUDIO_TOTAL_SHOTS 50

模型推荐

CutClaw 支持多种模型，官方推荐：

视频模型：Gemini-3、Qwen3.5、GPT-5.3（用于镜头/场景理解和视觉字幕）
音频模型：Gemini-3（用于 ASR 和音乐结构解析）
智能体模型：MiniMax-2.7、Kimi-2.5、Claude-4.5（用于驱动编剧 + 剪辑师 + 审阅者循环）

它用 LiteLLM 作为 API 管理网关，模型名称格式比如 openai/MiniMax-2.7。

使用场景

旅拍博主：拍了一天的素材，丢给 CutClaw，一句话生成踩点短片
Vlogger：快速生成日常视频，不用花几小时手动剪辑
营销团队：批量生成不同风格的宣传片，适配多平台发布
内容创作者：把长视频素材快速剪成短视频，分发到抖音、小红书等平台

总结

CutClaw 的出现，让视频剪辑从一项需要专业技能和大量时间的工作，变成了普通人也能轻松搞定的事情。

它不是简单的自动化工具，而是真正理解音乐和叙事的 AI 剪辑师。

苏米注：如果你是旅拍博主、Vlogger，或者需要经常做视频营销，建议试试这个项目。音乐驱动剪辑这个思路非常创新，值得体验。

项目地址：github.com/GVCLab/CutClaw

声明：本站原创文章文字版权归本站所有，转载务必注明作者和出处；本站转载文章仅仅代表原作者观点，不代表本站立场，图文版权归原作者所有。如有侵权，请联系我们删除。

未经允许不得转载：北交大开源 CutClaw：自动踩点音乐的 AI 视频剪辑师

请登录后发表评论