Fish Audio S2:开源 TTS 新王者 — 技术架构、创始人故事与商业化全解
> 公司: Hanabi AI(花火 AI)
> 产品: Fish Audio
> 创始人: 冷月(Lengyue),00 后,前英伟达研究员
> GitHub: https://github.com/fishaudio/fish-speech (7 万+ 星标)
> 官网: https://fish.audio
> 最新模型: Fish Audio S2(2026 年 3 月开源)
> 论文: https://arxiv.org/abs/2603.08823
> HuggingFace: https://huggingface.co/fishaudio/s2
一句话总结
一个 00 后华裔创始人从被绿后想做"永不背叛的 AI 陪伴",一路做到了开源 TTS 全球第一——Fish Audio S2 在 24 语种测评中碾压 ElevenLabs 和 MiniMax,半年 ARR 冲到 500 万美元,真正实现了"用自然语言控制 AI 怎么说话"。
创始人故事:00 后、被绿、AI 陪伴
冷月其人
| 信息 | 详情 |
|---|---|
| 出生 | 2000 年后(00 后) |
| 教育 | 广州外国语学校 → 马里兰大学 CS |
| 前雇主 | **英伟达**,Vision Foundation Model 研究 |
| 创业时间 | 2023 年 7 月从英伟达离职 |
| 编程起点 | 小学开始(父母均从事软件) |
| 副业收入 | 高中时接单平台做到 20-30 万美元/年 |
| 孵化器 | **HF0**(Hugging Face 孵化器) |
创业动机:一个很个人的故事
> "大约两年前,我被在一起六七年的女朋友绿了。这也奠定了我之后想做 AI 的基础——我开始思考人与人之间的连接是否真的可靠。相比之下,人和 AI 的关系是可以更稳定、更值得信赖的。AI 没有背叛你的动机,可以成为更可靠的陪伴。"
从"做一个永不背叛的 AI 男友/女友"的想法出发,冷月发现——语言模型已经够用了,但语音合成是短板。于是从语音切入,一步步走到了今天。
开源基因
冷月和团队在创业前就是开源社区的核心贡献者:
- So-VITS-SVC — AI 变声器鼻祖级项目
- GPT-SoVITS — 早期版本训练资源提供者
- Bert-VITS2 — 语义建模 TTS
这些项目在 GitHub 上累计 7 万+ 星标。早期算力不够,很多训练是在冷月家里的 4090 们上完成的。
商业数据
| 指标 | 数据 |
|---|---|
| ARR | **~500 万美元/月**(2025 年中数据) |
| 增长速度 | 从 0 到 400 万美元仅数月 |
| MAU | 从 5 万增长到 **40 万** |
| 收入结构 | C 端创作者 ~70% + API 服务 ~30% |
| 主要市场 | 北美、日本 |
| 用户场景 | 视频配音、播客、有声书、广告、AI 陪伴 |
| 融资 | HF0 孵化 + 多轮融资(具体金额未公开) |
Fish Audio S2 技术深度
核心架构:Dual-AR(双自回归)
传统做法:将音频编码为 10 个 codebook,全部展平到时间轴 → 序列长度爆炸 10 倍。
S2 的方案:
┌─────────────────────────────────┐
│ Slow AR(4B 参数) │
│ ↓ 沿时间轴预测语义 codebook │
│ 负责:语言结构、韵律、语义 │
└──────────────┬──────────────────┘
│
┌──────────────▼──────────────────┐
│ Fast AR(400M 参数) │
│ ↓ 每个时间步生成剩余 9 个 codebook │
│ 负责:音色、气息、声学细节 │
└─────────────────────────────────┘
关键洞察:这个架构和标准 LLM 结构同构(isomorphic),因此可以直接复用 LLM 的全套推理优化——连续批处理、分页 KV Cache、CUDA Graph、RadixAttention 前缀缓存。不需要自建推理引擎。
训练数据
- 1000 万+小时音频,覆盖约 50 种语言
- 自建超大规模 open-domain 语音数据集
- 多维标签:语义、场景、情绪、重音、说话人
- 所有数据清洗和标注模型全部自研
强化学习对齐:GRPO
S2 是首个大规模使用 RL 对齐的 TTS 系统。
核心创新:数据标注模型 = RL 奖励模型(同一套模型双重使用)
| 模型 | 数据阶段用途 | RL 阶段用途 |
|---|---|---|
| 语音质量评分模型 | 过滤低质量音频(SNR、一致性、可懂度) | 声学偏好奖励 |
| Rich-Transcription ASR(基于 Qwen3-Omni-30B) | 生成带标注的转录文本 | 可懂度 + 指令遵循奖励 |
这解决了一个行业痛点:预训练数据分布 ≠ RL 阶段目标分布。其他 TTS 系统单独训练奖励模型,Fish Audio 用同一套模型,从根本上消除了分布偏差。
内联情感控制(Inline Tags)
S2 最大的用户体验突破:不是整段话一个语气,而是在文本中间任意位置插入自然语言控制指令。
<|speaker:1|>
"I can't believe you did that," [whispers, with a trembling voice]
"after everything we've been through." [voice breaking, on the verge of tears]
<|speaker:2|>
[calm, measured tone] "I know. And I'm sorry."
不是预定义标签——是任意自然语言描述。[高兴里夹带一点愤怒]、[professional broadcast tone]、[pitch up] 都可以。
冷月说的痛点:用户做有声书时,大部分内容一次通过,但情绪细腻的句子要反复生成几十甚至上百次才满意。S2 的 inline control 就是为了解决这个"抽卡"问题。
Benchmark 成绩
语音质量
| 评测 | Fish Audio S2 | 对比 |
|---|---|---|
| Seed-TTS Eval WER(中文) | **0.54%** | Qwen3-TTS 0.77%, MiniMax 0.99%, Seed-TTS 1.12% |
| Seed-TTS Eval WER(英文) | **0.99%** | Qwen3-TTS 1.24%, MiniMax 1.90%, Seed-TTS 2.25% |
| Audio Turing Test | **0.515** | Seed-TTS 0.417 (+24%), MiniMax 0.387 (+33%) |
| EmergentTTS-Eval Win Rate | **81.88%** | vs gpt-4o-mini-tts baseline,全场最高 |
| Fish Instruction Benchmark TAR | **93.3%** | — |
| Fish Instruction Benchmark Quality | **4.51/5.0** | — |
多语言(MiniMax 24 语种测试集)
| 维度 | S2 表现 |
|---|---|
| Best WER | **11/24 语言**(最多) |
| Best Speaker Similarity | **17/24 语言**(最多) |
在中英日韩法德西葡俄等主要语言中均为第一或第二。
推理性能(单卡 NVIDIA H200)
| 指标 | 数值 |
|---|---|
| Real-Time Factor (RTF) | 0.195(比实时快 5 倍) |
| 首字延迟 | ~100ms |
| 吞吐 | 3000+ acoustic tokens/s |
| 前缀缓存命中率 | **86.4%**(同一声音重复使用时 >90%) |
竞品对比
| 维度 | Fish Audio S2 | ElevenLabs | OpenAI TTS | MiniMax Speech-02 | Qwen3-TTS |
|---|---|---|---|---|---|
| 开源 | ✅ Apache 2.0 | ❌ | ❌ | ❌ | 部分 |
| 模型参数 | 4B+400M | 未公开 | 未公开 | 未公开 | 30B-A3B |
| 中文 WER | **0.54%** | ~2%+ | 未公开 | 0.99% | 0.77% |
| 克隆门槛 | **15 秒** | 30 秒 | ❌ 不支持 | 未公开 | 未公开 |
| 情感控制 | **自然语言内联**(任意描述) | 有限预设 | 无 | 有限 | 有限 |
| 首字延迟 | **~100ms** | ~300ms | ~500ms | 未公开 | 未公开 |
| 自部署 | ✅ 完整推理栈 | ❌ | ❌ | ❌ | ✅ |
| RL 对齐 | ✅ GRPO | 未公开 | 未公开 | 未公开 | 未公开 |
ElevenLabs 的问题
冷月的技术性批评值得注意:
> "ElevenLabs 做了一些 reward hacking 的事情。它的语音听上去起伏丰富,初听非常自然,但实际上这些起伏是装饰性的,并没有与语义和情绪精准对应。你会感觉它'像人说话',但认真听就会发现强调和停顿是随机的,缺乏语用逻辑。"
翻译:ElevenLabs 的模型学会了"听起来像人"的韵律模式,但这些韵律不是从语义出发的,是"化妆"而非"真美"。
产品矩阵
| 产品 | 面向 | 说明 |
|---|---|---|
| **Fish Audio App** | C 端创作者 | Web 端 TTS + 声音克隆平台,北美/日本为主 |
| **Fish Audio API** | B 端开发者 | OpenAI 兼容接口,voice_id 统一管理 |
| **S2 开源模型** | 开发者/研究者 | 完整权重 + fine-tuning 代码 + SGLang 推理 |
| **S2 Pro** | 商业用户 | 闭源增强版,通过 fish.audio 平台使用 |
| **未来:AI 陪伴产品** | C 端 | 冷月的终极愿景——"永不背叛的语音陪伴" |
对 Babel 播客的启发
我们的 Babel 播客目前使用 IndexTTS2(默认)和 Qwen3-TTS(备选)做中文语音合成。Fish Audio S2 值得关注但不急着替换:
| 维度 | IndexTTS2(当前) | Fish Audio S2 |
|---|---|---|
| 部署方式 | 本地 GPU | 本地 GPU 或 API |
| 推理成本 | 零(自有 GPU) | 零(自部署)或 API 付费 |
| 中文质量 | 好 | 可能更好(WER 0.54%) |
| 情感控制 | 有限 | 强(inline tags) |
| 多说话人 | 支持 | 原生多说话人标记 |
| 集成难度 | 已集成 | 需要新增 backend |
结论:如果发现当前 TTS 质量不够好(特别是情感丰富的段落),Fish Audio S2 是最值得试的替代方案。但现阶段 IndexTTS2 已经够用,不急。
评分
| 维度 | 评分(/10) |
|---|---|
| 技术创新 | **9.5** — Dual-AR + GRPO + 数据-奖励统一设计,架构层面领先 |
| 开源诚意 | **9.0** — 权重 + fine-tuning + 推理栈全开源,Apache 2.0 |
| 商业化 | **8.5** — 半年 500 万美元 ARR,增速惊人 |
| 中文能力 | **9.5** — 中文 WER 0.54%,24 语种中文 best,碾压 |
| 生态成熟度 | **7.5** — SGLang 集成好,但文档和社区还在建设中 |
| 创始人故事 | **10** — 被绿后做永不背叛的 AI 陪伴,这个叙事满分 |
| **综合** | **9.0** |
时间线
| 时间 | 事件 |
|---|---|
| ~2021 | 冷月开始关注语音克隆(二次元角色配音) |
| 2022 | 参与开源 So-VITS-SVC、GPT-SoVITS |
| 2023.07 | 从英伟达离职,创办 Hanabi AI |
| 2023 年底 | 最艰难时期——融资困难、信用卡债务 |
| 2024.06 | Fish Speech 1.0 开源 |
| 2024.07 | Fish Speech 1.3 — 10 秒克隆 |
| 2024.09 | Fish Speech 1.4 — 多语言增强 |
| 2025 年初 | 加入 HF0 孵化器,连续完成多轮融资 |
| 2025 年中 | ARR 达到 ~500 万美元,MAU 40 万 |
| 2025.11 | Fish Speech 1.5(开源 SOTA) |
| **2026.03** | **Fish Audio S2 开源**(当前全球 TTS 第一) |
相关链接
- 官方博客(S2 开源公告): https://fish.audio/blog/fish-audio-open-sources-s2/
- GitHub 仓库: https://github.com/fishaudio/fish-speech
- S2 技术报告(arXiv): https://arxiv.org/abs/2603.08823
- HuggingFace 模型: https://huggingface.co/fishaudio/s2
- S2 产品页: https://fish.audio/s2/
- SGLang 集成: https://github.com/sgl-project/sglang-omni
- 创始人访谈(白鲸出海): https://www.baijing.cn/article/53247
- 技术文档: https://speech.fish.audio/
- Inline Tags 教程: https://fish.audio/blog/how-to-use-inline-tags-in-fish-audio-s2/
- 国内官网: https://fishaudiocn.com/
数据来源: Fish Audio 官方博客、arXiv 论文、白鲸出海创始人访谈、MarkTechPost | 2026-03-24