VibeVoice：微软开源的前沿语音 AI 家族——ASR + TTS + 实时合成

> 作者: Microsoft Research

> 协议: MIT

> 模型: ASR 7B / TTS 1.5B / Realtime 0.5B

> 论文: ASR 技术报告 / TTS 论文（ICLR 2026 Oral）

> 研究时间: 2026-03-31

🎯 一句话版本

微软开源了一套语音 AI 模型——ASR 模型能一次性处理 60 分钟长音频并自动区分说话人，TTS 模型能一次合成 90 分钟多人对话，实时模型 300ms 就能出声。TTS 因为被拿去做 deepfake 被微软删了代码，社区 fork 保留了。

🧠 三个模型

1. VibeVoice-ASR（7B）⭐ 核心亮点

60 分钟长音频，一次搞定——传统 ASR 要把音频切成短片段分别识别（丢失上下文），VibeVoice-ASR 在 64K token 窗口内一次处理完整小时级音频。

输出不是纯文本，是结构化数据：


[Speaker 1] [00:01:23 → 00:01:45] 我觉得这个方案可行
[Speaker 2] [00:01:46 → 00:02:10] 但是成本需要重新评估

联合完成三件事：语音识别（What）+ 说话人分离（Who）+ 时间戳（When）。

特性	详情
参数量	7B
最长音频	60 分钟（单次）
语言	50+ 种，自动切换
热词注入	✅ 可提供专业术语提高识别率
微调代码	✅ 已开源
vLLM 推理	✅ 支持
HuggingFace	✅ Transformers v5.3.0 原生集成

Benchmark 成绩：

指标	VibeVoice-ASR	对比
Open ASR Leaderboard 平均 WER	7.77%	8 个英文数据集
LibriSpeech Clean WER	2.20%	—
TED-LIUM WER	2.57%	—
AISHELL-4 DER（说话人分离）	15.7%	Gemini-2.5: 28.9%, Gemini-3: 58.8%
推理速度 RTFx	51.80	即比实时快 51.8 倍

说话人分离碾压 Gemini——DER 15.7% vs Gemini-3 的 58.8%，差了近 4 倍。

2. VibeVoice-TTS（1.5B）⚠️ 已被部分删除

特性	详情
参数量	1.5B
最长合成	90 分钟（单次）
说话人数	最多 4 人
语言	中英文等
表现力	情感、语调、自然转场
论文	ICLR 2026 Oral（顶会口头报告）

2025 年 8 月开源，2025 年 9 月因 deepfake 滥用被微软从仓库移除代码。社区 fork（vibevoice-community/VibeVoice）保留了被删代码。

这是微软自己的"潘多拉魔盒"时刻——模型太好了，好到被拿去做假冒音频，逼得自己撤回。

3. VibeVoice-Realtime（0.5B）

特性	详情
参数量	0.5B（轻量部署友好）
首音延迟	~300ms
输入	流式文本
最长合成	~10 分钟
声音	9 种语言 + 11 种英文风格（实验性）

适合实时对话场景——聊天机器人的语音输出层。

🔧 核心技术


文本 → LLM (Qwen2.5) → 理解上下文和对话流
         ↓
  连续语音 Tokenizer (7.5 Hz)
  ├── Acoustic Tokenizer → 声学特征
  └── Semantic Tokenizer → 语义特征
         ↓
  Diffusion Head → 高保真音频

关键创新：

7.5 Hz 超低帧率 tokenizer——传统语音模型用 50-75 Hz，VibeVoice 用 7.5 Hz，token 量减少 ~10 倍，使得 LLM 能处理更长音频
Next-token diffusion：LLM 做序列建模，diffusion head 做音频生成，两种范式结合
基座用 Qwen2.5 1.5B，说明中国开源模型已经成为国际项目的基础组件

🌍 生态与社区

动态	时间	说明
TTS 开源	2025-08	ICLR 2026 Oral
TTS 代码撤回	2025-09	deepfake 滥用
社区 fork	2025-09	保留被删代码
Realtime 0.5B	2025-12	实时 TTS
ASR 7B 开源	2026-01	核心突破
Transformers 集成	2026-03	HF v5.3.0
Vibing 输入法	2026-03	基于 VibeVoice-ASR 的语音输入法（macOS/Windows）
Azure AI Foundry	2026-03	云端部署

Vibing 是社区基于 VibeVoice-ASR 构建的语音输入法——说话直接转文字，支持 macOS 和 Windows。

💡 与我们的关联

1. ASR 可以替代 Whisper 做播客/会议转录

我们的 summarize CLI 用 Whisper 做音视频转录。VibeVoice-ASR 在长音频上优势明显——60 分钟一次处理 + 自动说话人分离 + 时间戳。如果本地跑 7B 模型（需要 ~16GB VRAM），可以显著提升播客研究的转录质量。

2. 热词注入 = 更准确的专业术语识别

研究 AI/crypto 领域时，专有名词多（OpenClaw、Claude Code、ERC-20……）。VibeVoice-ASR 的热词注入功能可以显著提升这些术语的识别率。

3. Realtime 0.5B 可以给 OpenClaw 加语音输出

0.5B 参数量在 ub2 的 4090 上跑绰绰有余，300ms 延迟适合实时对话。如果想给 agent 加语音回复能力，这是目前最好的开源选择之一。

4. TTS 被撤回的教训

微软自己开源了强大的 TTS，结果被 deepfake 滥用不得不撤回。这是 AI 安全的经典案例——能力越强，滥用风险越大。开源 AI 的双刃剑。

5. Qwen2.5 作为基座

微软用阿里的 Qwen2.5 做基座——中国开源模型已经成为国际大厂项目的底座。生态外溢效应明显。

📊 评分

维度	评分（/10）
技术深度	9.5 — 7.5Hz tokenizer + next-token diffusion，两篇高质量论文（ICLR Oral）
创新性	9.0 — 60 分钟单次处理 + 结构化转录（Who/When/What）
实用性	9.0 — ASR 已集成 Transformers，微调代码开源，vLLM 支持
开源完整度	7.5 — ASR 完整开源，TTS 代码被删（社区 fork 保留）
与我们的相关度	7.5 — ASR 可替代 Whisper，Realtime 可做语音输出
综合	8.5

报告由深度研究助手自动生成 | 2026-03-31

来源: GitHub / HuggingFace / 论文

评分

维度	分数	说明
创意	?/10
技术深度	?/10
实用性	?/10
影响力	?/10
数据支撑	?/10
与我们的相关性	?/10
综合	?/10	需要后续评估

> 一句话总结：（报告的核心价值与我们的关联）

评分

维度	分数	说明
创意	?/10
技术深度	?/10
实用性	?/10
影响力	?/10
数据支撑	?/10
与我们的相关性	?/10
综合	?/10	需要后续评估

> 一句话总结：（报告的核心价值与我们的关联）