Montai:AI 驱动的 Vlog 智能剪辑工具

> 一句话版本:Montai 是一个 AI 视频剪辑工具——你把一堆没剪辑的原始录像给它,它自己看完后帮你理出一个故事线,然后你像聊天一样告诉它怎么剪,它就能生成一条成品 Vlog。

来源: https://github.com/jysperm/Montai

作者: jysperm (王子亭)

日期: 2026-05-13 (v0.3.0, 2026-05-12)

评分: ⭐⭐⭐⭐ (4/5)

这是什么?

Montai(取 "montage" 谐音)是一个本地运行的 AI 视频剪辑 CLI 工具,由知名开发者王子亭(jysperm)创建。它专门解决一个痛点:你有一堆无剧本的原始素材(比如旅行拍的片段、日常 Vlog 素材),从头剪一条视频需要大量手动工作——看素材、找亮点、排列、加转场、配乐——Montai 用 AI 替你做了大部分。

核心流程:

1. analyze:AI 自动分析所有原始视频,理解每个片段的内容(场景、人物、亮点、技术质量)

2. story:你通过自然语言聊天,跟 AI 一起构思故事线,一步步打磨时间线

3. export/render:输出为 FCPXML(可导入 Final Cut Pro/DaVinci Resolve)或直接渲染成视频

技术亮点

架构设计非常扎实

编辑能力很完整

自反馈机制:可以在编辑过程中预览任意帧截图或短片段,检查效果是否满意——这是很多 AI 视频产品欠缺的能力。

设计与理念

从 DESIGN.md 看,作者做了大量经过深思熟虑的工程决策:

这些设计表明作者对 LLM Agent 应用的架构模式有深入理解。

模型表现

项目附带了 Model-Performance.md 文档了 Gemini 3 Flash 的几个已知 bug:

这种"带着实测发现的 bugs 一起开源"的做法,说明作者是真的在重度使用中迭代。

实战工作流程示例:日本旅行 Vlog

假设你有 20 个零散素材片段(酒店开箱、街头美食、新干线窗外、富士山全景),存放在 ./footage/

1. 创建项目


# montai.yaml
assets:
  videos:
    - ./footage
  music:
    - ./musics
language: zh
output:
  resolution: 1080p
  fps: 50
models:
  analysis: gemini-3-flash-preview
  editing: gemini-3.1-pro-preview
effects:
  languages: [zh, en]

2. 分析素材


montai analyze

Montai 做三件事:

1. 转码素材为 Gemini 可处理的格式

2. 上传到 Gemini File API(路径键缓存,避免重复上传)

3. 逐段分析每个视频,生成场景摘要

比如对一段 3 分钟的酒店开箱视频,分析结果类似:

3. 交互式剪辑


montai story --new

进入对话式编辑会话。AI 会说:

> AI:「据我分析你去了东京、富士山、京都,想讲什么故事?」

>

> :「我想做一个 3 分钟左右的旅行 Vlog,从东京开始,到富士山结束,节奏要轻松」

>

> AI:「好的,我建议这样安排:

> - 开场:涩谷十字路口延时 + 字幕『东京』

> - 第一部分:浅草寺、筑地市场(街头美食特写)

> - 中段:新干线去富士山(车窗风景)

> - 高潮:富士山全景 + 湖边散步

> - 结尾:日落在酒店阳台,字幕渐出」

>

> :「把筑地市场那段缩短一点,加个 1.5x 快放」

>

> AI:「明白了,筑地从 15 秒缩到 8 秒,设 1.5x 变速。还要调整别的吗?」

>

> :「找个轻快的 BGM,再在阳台那段加个『终』字淡出」

途中随时可以用 /preview 打开 Remotion Studio 实时预览,或用 /previewFrame 42 看第 42 帧截图确认效果。

4. 导出或渲染


montai export               # 生成 FCPXML,导入 Final Cut Pro 精修
montai render my-vlog       # 直接渲染成品 MP4

5. 归档(可选)


montai archive              # 只提取 timeline 用到的片段,释放空间

与市面上其他方案比

对比维度Montai商业 AI 剪辑工具(Descript, Vizard 等)
运行方式本地 CLI云端/SaaS
数据隐私✅ 全部本地❌ 上传云端
控制粒度极细(帧级精确)依赖 AI 判断
导出能力FCPXML → 专业剪辑软件通常只能导出成品
上手门槛需要 CLI 和 yaml 配置浏览器打开就可用
模型依赖Gemini + Lyria 2各家自研或封闭

Montai 的定位很有意思——它不是要取代 Final Cut Pro,而是做"粗剪伴侣":AI 帮你完成最耗时的初步筛选和故事构建,然后导出 FCPXML 到专业工具做精修。

评价

Montai 是目前我看到的构思最完整、工程实现最扎实的开源 AI 视频剪辑工具。它不是那种"用 AI 一键生成"的噱头产品,而是一个真正理解剪辑工作流的工具——AI 做 AI 擅长的事(理解内容、提炼叙事),专业工具做专业工具擅长的事(精细调色、多轨混音),Montai 做中间的桥梁。

值得关注的发展方向:

与我们的关联

王子亭(jysperm)是中文技术圈有名的 Ruby/JavaScript 开发者,长期活跃在开源社区。这个项目体现了他对 AI + 创作工具交叉领域的深入思考,架构和设计文档的质量都很高,值得学习其 Agent 应用的工程模式。

报告完 | https://github.com/jysperm/Montai