VibeVoice:微软开源的前沿语音 AI 家族——ASR + TTS + 实时合成

> 来源: github.com/microsoft/VibeVoice

> 作者: Microsoft Research

> 协议: MIT

> 模型: ASR 7B / TTS 1.5B / Realtime 0.5B

> 论文: ASR 技术报告 / TTS 论文(ICLR 2026 Oral)

> 研究时间: 2026-03-31

🎯 一句话版本

微软开源了一套语音 AI 模型——ASR 模型能一次性处理 60 分钟长音频并自动区分说话人,TTS 模型能一次合成 90 分钟多人对话,实时模型 300ms 就能出声。TTS 因为被拿去做 deepfake 被微软删了代码,社区 fork 保留了。

🧠 三个模型

1. VibeVoice-ASR(7B)⭐ 核心亮点

60 分钟长音频,一次搞定——传统 ASR 要把音频切成短片段分别识别(丢失上下文),VibeVoice-ASR 在 64K token 窗口内一次处理完整小时级音频。

输出不是纯文本,是结构化数据


[Speaker 1] [00:01:23 → 00:01:45] 我觉得这个方案可行
[Speaker 2] [00:01:46 → 00:02:10] 但是成本需要重新评估

联合完成三件事:语音识别(What)+ 说话人分离(Who)+ 时间戳(When)。

特性详情
参数量7B
最长音频60 分钟(单次)
语言50+ 种,自动切换
热词注入✅ 可提供专业术语提高识别率
微调代码✅ 已开源
vLLM 推理✅ 支持
HuggingFace✅ Transformers v5.3.0 原生集成

Benchmark 成绩

指标VibeVoice-ASR对比
Open ASR Leaderboard 平均 WER**7.77%**8 个英文数据集
LibriSpeech Clean WER**2.20%**
TED-LIUM WER**2.57%**
AISHELL-4 DER(说话人分离)**15.7%**Gemini-2.5: 28.9%, Gemini-3: 58.8%
推理速度 RTFx**51.80**即比实时快 51.8 倍

说话人分离碾压 Gemini——DER 15.7% vs Gemini-3 的 58.8%,差了近 4 倍。

2. VibeVoice-TTS(1.5B)⚠️ 已被部分删除

特性详情
参数量1.5B
最长合成90 分钟(单次)
说话人数最多 4 人
语言中英文等
表现力情感、语调、自然转场
论文**ICLR 2026 Oral**(顶会口头报告)

2025 年 8 月开源,2025 年 9 月因 deepfake 滥用被微软从仓库移除代码。社区 fork(vibevoice-community/VibeVoice)保留了被删代码。

这是微软自己的"潘多拉魔盒"时刻——模型太好了,好到被拿去做假冒音频,逼得自己撤回。

3. VibeVoice-Realtime(0.5B)

特性详情
参数量0.5B(轻量部署友好)
首音延迟~300ms
输入流式文本
最长合成~10 分钟
声音9 种语言 + 11 种英文风格(实验性)

适合实时对话场景——聊天机器人的语音输出层。

🔧 核心技术


文本 → LLM (Qwen2.5) → 理解上下文和对话流
         ↓
  连续语音 Tokenizer (7.5 Hz)
  ├── Acoustic Tokenizer → 声学特征
  └── Semantic Tokenizer → 语义特征
         ↓
  Diffusion Head → 高保真音频

关键创新

🌍 生态与社区

动态时间说明
TTS 开源2025-08ICLR 2026 Oral
TTS 代码撤回2025-09deepfake 滥用
社区 fork2025-09保留被删代码
Realtime 0.5B2025-12实时 TTS
ASR 7B 开源2026-01核心突破
Transformers 集成2026-03HF v5.3.0
Vibing 输入法2026-03基于 VibeVoice-ASR 的语音输入法(macOS/Windows)
Azure AI Foundry2026-03云端部署

Vibing 是社区基于 VibeVoice-ASR 构建的语音输入法——说话直接转文字,支持 macOS 和 Windows。

💡 与我们的关联

1. ASR 可以替代 Whisper 做播客/会议转录

我们的 summarize CLI 用 Whisper 做音视频转录。VibeVoice-ASR 在长音频上优势明显——60 分钟一次处理 + 自动说话人分离 + 时间戳。如果本地跑 7B 模型(需要 ~16GB VRAM),可以显著提升播客研究的转录质量。

2. 热词注入 = 更准确的专业术语识别

研究 AI/crypto 领域时,专有名词多(OpenClaw、Claude Code、ERC-20……)。VibeVoice-ASR 的热词注入功能可以显著提升这些术语的识别率。

3. Realtime 0.5B 可以给 OpenClaw 加语音输出

0.5B 参数量在 ub2 的 4090 上跑绰绰有余,300ms 延迟适合实时对话。如果想给 agent 加语音回复能力,这是目前最好的开源选择之一。

4. TTS 被撤回的教训

微软自己开源了强大的 TTS,结果被 deepfake 滥用不得不撤回。这是 AI 安全的经典案例——能力越强,滥用风险越大。开源 AI 的双刃剑。

5. Qwen2.5 作为基座

微软用阿里的 Qwen2.5 做基座——中国开源模型已经成为国际大厂项目的底座。生态外溢效应明显。

📊 评分

维度评分(/10)
技术深度9.5 — 7.5Hz tokenizer + next-token diffusion,两篇高质量论文(ICLR Oral)
创新性9.0 — 60 分钟单次处理 + 结构化转录(Who/When/What)
实用性9.0 — ASR 已集成 Transformers,微调代码开源,vLLM 支持
开源完整度7.5 — ASR 完整开源,TTS 代码被删(社区 fork 保留)
与我们的相关度7.5 — ASR 可替代 Whisper,Realtime 可做语音输出
**综合****8.5**

报告由深度研究助手自动生成 | 2026-03-31

来源: GitHub / HuggingFace / 论文