VibeVoice:微软开源的前沿语音 AI 家族——ASR + TTS + 实时合成
> 来源: github.com/microsoft/VibeVoice
> 作者: Microsoft Research
> 协议: MIT
> 模型: ASR 7B / TTS 1.5B / Realtime 0.5B
> 论文: ASR 技术报告 / TTS 论文(ICLR 2026 Oral)
> 研究时间: 2026-03-31
🎯 一句话版本
微软开源了一套语音 AI 模型——ASR 模型能一次性处理 60 分钟长音频并自动区分说话人,TTS 模型能一次合成 90 分钟多人对话,实时模型 300ms 就能出声。TTS 因为被拿去做 deepfake 被微软删了代码,社区 fork 保留了。
🧠 三个模型
1. VibeVoice-ASR(7B)⭐ 核心亮点
60 分钟长音频,一次搞定——传统 ASR 要把音频切成短片段分别识别(丢失上下文),VibeVoice-ASR 在 64K token 窗口内一次处理完整小时级音频。
输出不是纯文本,是结构化数据:
[Speaker 1] [00:01:23 → 00:01:45] 我觉得这个方案可行
[Speaker 2] [00:01:46 → 00:02:10] 但是成本需要重新评估
联合完成三件事:语音识别(What)+ 说话人分离(Who)+ 时间戳(When)。
| 特性 | 详情 |
|---|---|
| 参数量 | 7B |
| 最长音频 | 60 分钟(单次) |
| 语言 | 50+ 种,自动切换 |
| 热词注入 | ✅ 可提供专业术语提高识别率 |
| 微调代码 | ✅ 已开源 |
| vLLM 推理 | ✅ 支持 |
| HuggingFace | ✅ Transformers v5.3.0 原生集成 |
Benchmark 成绩:
| 指标 | VibeVoice-ASR | 对比 |
|---|---|---|
| Open ASR Leaderboard 平均 WER | **7.77%** | 8 个英文数据集 |
| LibriSpeech Clean WER | **2.20%** | — |
| TED-LIUM WER | **2.57%** | — |
| AISHELL-4 DER(说话人分离) | **15.7%** | Gemini-2.5: 28.9%, Gemini-3: 58.8% |
| 推理速度 RTFx | **51.80** | 即比实时快 51.8 倍 |
说话人分离碾压 Gemini——DER 15.7% vs Gemini-3 的 58.8%,差了近 4 倍。
2. VibeVoice-TTS(1.5B)⚠️ 已被部分删除
| 特性 | 详情 |
|---|---|
| 参数量 | 1.5B |
| 最长合成 | 90 分钟(单次) |
| 说话人数 | 最多 4 人 |
| 语言 | 中英文等 |
| 表现力 | 情感、语调、自然转场 |
| 论文 | **ICLR 2026 Oral**(顶会口头报告) |
2025 年 8 月开源,2025 年 9 月因 deepfake 滥用被微软从仓库移除代码。社区 fork(vibevoice-community/VibeVoice)保留了被删代码。
这是微软自己的"潘多拉魔盒"时刻——模型太好了,好到被拿去做假冒音频,逼得自己撤回。
3. VibeVoice-Realtime(0.5B)
| 特性 | 详情 |
|---|---|
| 参数量 | 0.5B(轻量部署友好) |
| 首音延迟 | ~300ms |
| 输入 | 流式文本 |
| 最长合成 | ~10 分钟 |
| 声音 | 9 种语言 + 11 种英文风格(实验性) |
适合实时对话场景——聊天机器人的语音输出层。
🔧 核心技术
文本 → LLM (Qwen2.5) → 理解上下文和对话流
↓
连续语音 Tokenizer (7.5 Hz)
├── Acoustic Tokenizer → 声学特征
└── Semantic Tokenizer → 语义特征
↓
Diffusion Head → 高保真音频
关键创新:
- 7.5 Hz 超低帧率 tokenizer——传统语音模型用 50-75 Hz,VibeVoice 用 7.5 Hz,token 量减少 ~10 倍,使得 LLM 能处理更长音频
- Next-token diffusion:LLM 做序列建模,diffusion head 做音频生成,两种范式结合
- 基座用 Qwen2.5 1.5B,说明中国开源模型已经成为国际项目的基础组件
🌍 生态与社区
| 动态 | 时间 | 说明 |
|---|---|---|
| TTS 开源 | 2025-08 | ICLR 2026 Oral |
| TTS 代码撤回 | 2025-09 | deepfake 滥用 |
| 社区 fork | 2025-09 | 保留被删代码 |
| Realtime 0.5B | 2025-12 | 实时 TTS |
| ASR 7B 开源 | 2026-01 | 核心突破 |
| Transformers 集成 | 2026-03 | HF v5.3.0 |
| Vibing 输入法 | 2026-03 | 基于 VibeVoice-ASR 的语音输入法(macOS/Windows) |
| Azure AI Foundry | 2026-03 | 云端部署 |
Vibing 是社区基于 VibeVoice-ASR 构建的语音输入法——说话直接转文字,支持 macOS 和 Windows。
💡 与我们的关联
1. ASR 可以替代 Whisper 做播客/会议转录
我们的 summarize CLI 用 Whisper 做音视频转录。VibeVoice-ASR 在长音频上优势明显——60 分钟一次处理 + 自动说话人分离 + 时间戳。如果本地跑 7B 模型(需要 ~16GB VRAM),可以显著提升播客研究的转录质量。
2. 热词注入 = 更准确的专业术语识别
研究 AI/crypto 领域时,专有名词多(OpenClaw、Claude Code、ERC-20……)。VibeVoice-ASR 的热词注入功能可以显著提升这些术语的识别率。
3. Realtime 0.5B 可以给 OpenClaw 加语音输出
0.5B 参数量在 ub2 的 4090 上跑绰绰有余,300ms 延迟适合实时对话。如果想给 agent 加语音回复能力,这是目前最好的开源选择之一。
4. TTS 被撤回的教训
微软自己开源了强大的 TTS,结果被 deepfake 滥用不得不撤回。这是 AI 安全的经典案例——能力越强,滥用风险越大。开源 AI 的双刃剑。
5. Qwen2.5 作为基座
微软用阿里的 Qwen2.5 做基座——中国开源模型已经成为国际大厂项目的底座。生态外溢效应明显。
📊 评分
| 维度 | 评分(/10) |
|---|---|
| 技术深度 | 9.5 — 7.5Hz tokenizer + next-token diffusion,两篇高质量论文(ICLR Oral) |
| 创新性 | 9.0 — 60 分钟单次处理 + 结构化转录(Who/When/What) |
| 实用性 | 9.0 — ASR 已集成 Transformers,微调代码开源,vLLM 支持 |
| 开源完整度 | 7.5 — ASR 完整开源,TTS 代码被删(社区 fork 保留) |
| 与我们的相关度 | 7.5 — ASR 可替代 Whisper,Realtime 可做语音输出 |
| **综合** | **8.5** |
报告由深度研究助手自动生成 | 2026-03-31
来源: GitHub / HuggingFace / 论文