Kokoro-82M — 82M 參數的開源 TTS 王者
- 来源链接: https://github.com/hexgrad/kokoro
- 模型: https://huggingface.co/hexgrad/Kokoro-82M
- 授权: Apache 2.0
- 日期: 2026-05-17
一句话版本
Kokoro 是一個只有 82M 參數的文字轉語音(TTS)模型,卻在 TTS Spaces Arena 評比中打敗了 14 倍大的模型——開源、安裝只需 pip install kokoro、一行 Python 就能把文字變成自然語音,API 成本不到每百萬字符 1 美元。
核心內容
這是什麼?
Kokoro-82M 是由 hexgrad 開源的輕量級 TTS 模型,基於 StyleTTS 2 架構,僅 82M 參數,Apache 2.0 授權。與多數需要數百 GB 顯存的大型 TTS 模型不同,Kokoro 可以在任何裝置上運行——從 Colab 到 MacBook 到生產伺服器。
核心數據
| 指標 | 數值 |
|---|---|
| 參數量 | 82M |
| 訓練成本 | 約 **$1,000 USD**(1000 小時 A100 80GB) |
| 訓練數據 | 幾百小時(開源音頻 + 合成數據) |
| 授權 | Apache 2.0 |
| 語言 | **8 種**(美式/英式英語、西語、法語、印地語、義大利語、日語、葡語、中文) |
| 聲音數 | 54 種 |
| HF 月下載 | **970 萬次** |
| GitHub Stars | 7K |
性能表現——以小博大
Kokoro 在 TTS Spaces Arena 獲得第一名的成績,打敗了參數量遠超它的模型:
| 模型 | 參數量 | 訓練數據 |
|---|---|---|
| **Kokoro-82M** 🥇 | **82M** | < 幾百小時 |
| XTTS v2 | 467M (5.7x) | 10,000+ 小時 |
| Fish Speech | ~500M (6x) | 1,000,000+ 小時 |
| MetaVoice | 1.2B (14.6x) | 100,000+ 小時 |
這意味著 Kokoro 在效率上遠超同儕:用 1/14 的參數、1/1000 的訓練數據,達到了更好的效果。
安裝與使用
pip install kokoro soundfile
from kokoro import KPipeline
import soundfile as sf
pipeline = KPipeline(lang_code='a') # a = 美式英語
text = "Kokoro is an open-weight TTS model with 82 million parameters."
generator = pipeline(text, voice='af_heart')
for i, (gs, ps, audio) in enumerate(generator):
sf.write(f'{i}.wav', audio, 24000) # 輸出 24kHz WAV
支援的語言代碼:
- 🇺🇸
'a'— 美式英語 - 🇬🇧
'b'— 英式英語 - 🇪🇸
'e'— 西班牙語 - 🇫🇷
'f'— 法語 - 🇮🇳
'h'— 印地語 - 🇮🇹
'i'— 義大利語 - 🇯🇵
'j'— 日語(需pip install misaki[ja]) - 🇧🇷
'p'— 巴西葡語 - 🇨🇳
'z'— 普通話(需pip install misaki[zh])
技術架構
Kokoro 基於兩個學術成果:
1. StyleTTS 2 (arXiv:2306.07691,Li et al.):decoder-only 的風格 TTS,無需 diffusion 或額外 encoder
2. ISTFTNet (arXiv:2203.02395):逆短時傅立葉轉換神經網路作為 vocoder
底層使用 misaki(hexgrad 自己的 G2P 庫)將文字轉為 IPA 音素。
Git 倉庫結構
奇怪的是這個倉庫混合了兩種語言——JavaScript 佔 51.5%、Python 佔 47.0%。這可能是因為它包含了一個 JS 版本的推理實現(kokoro.js/ 目錄),以及 web demo 的前端代碼。
API 成本
- 每百萬字符輸入:$0.65-0.80
- 每小時音頻輸出:低於 $0.06
- 相比營收模式的 TTS API 極具競爭力
服務商:DeepInfra、fal、Replicate
團隊背景與發展歷程
這是誰做的?
Kokoro 不是公司產品,沒有組織支持,沒有 VC 投資。它是一個完全由個人發起的社區驅動開源專案,背後的參與者:
| 角色 | 身份 | 貢獻 |
|---|---|---|
| **hexgrad** 👤 | GitHub/HF 匿名維護者 | 專案發起人、推理庫(kokoro pip 套件)和 misaki G2P 庫作者、HF Spaces demo 維護者。GitHub 上只有 kokoro 和 misaki 兩個 repo。HF 個人介紹中有一個亂碼字串 "Zvezdan"(斯拉夫語名字意為「星星」),此外沒有任何真實身分資訊 |
| **@rzvzn** 🎯 | Discord 匿名用戶 | **模型訓練者**——整個 Kokoro 實際上是這個人在 Discord 上訓練出來的。沒有名字、沒有 GitHub,唯一存在痕跡就是 HF 模型卡上那行 "Trained by: @rzvzn on Discord" |
| **yl4579 / Aaron (Yinghao) Li** 🏛️ | 哥倫比亞大學研究員 | StyleTTS 2 的架構設計者(Kokoro 的底層技術)。但**他沒有參與 Kokoro**——他的開源論文為 Kokoro 提供了基礎架構 |
| **Pendrokar / Yanis Lukes** | Hugging Face 社群成員 | 創建 TTS Spaces Arena 排行榜,將 Kokoro 加入評比,幫助它獲得 #1 排名 |
| **LongMaoData(龍貓數據)** 🇨🇳 | 中國專業數據公司 | 為 v1.1-zh 免費捐贈了 100 個中文語者數據集 |
| **SuperuserLabs / mingcheng / PATYai** | GitHub Sponsors | 三組已知的資金贊助者 |
發展歷程(6 個月從零到 970 萬月下載)
2024 年
| 日期 | 事件 |
|---|---|
| **11/22** | v0.19 訓練開始。訓練數據 <100 小時。Koniwa CC BY 音頻 (<1h)、SIWIS CC BY 音頻 (<11h) 加入訓練集 |
| **12/25 🎄** | **v0.19 首次公開釋出!** 聖誕節當天,權重在 Apache 2.0 下以 full fp32 發布。1 種語言(英語)、10 種聲音。訓練成本:**$400**(500 A100 80GB GPU 小時 @ $0.80/h) |
2025 年
| 日期 | 事件 | |
|---|---|---|
| **~1/2** | 10 個獨特 voicepack 釋出,.onnx 版本可用 | |
| **~1/8 🔥** | Reddit r/LocalLLaMA 貼文引爆社群:"Second Take: Kokoro-82M is an Apache TTS model"(216 讚、53 則討論)。模型訓練者親自現身回答問題 | |
| **~1/11** | r/Oobabooga 社群開始討論將 Kokoro 整合進 text-generation-webui | |
| **1/27 🚀** | **v1.0 釋出!** 重大升級:8 種語言、54 種聲音、幾百小時訓練數據。追加訓練成本 **$600**(500 A100 GPU 小時 @ $1.20/h) | 總訓練成本:**~$1,000** |
| **2/5** | hexgrad 發布 HF 部落格文「G2P Shrinks Speech Models」,解釋 G2P(字素轉音素)預處理讓模型壓縮成為可能 | |
| **2/26 🇨🇳** | **v1.1-zh 釋出!** 中文增強版。龍貓數據捐贈 100 個中文語者。103 種聲音、2 種語言(中英)。訓練成本 **$110**(120 A100 GPU 小時 @ $0.90/h)。**總訓練成本全版本合計:$1,110** | |
| **~2/26** | EVAL 截圖:TTS Spaces Arena #1、TTS Arena #1、Artificial Analysis 頂尖排名 | |
| **4 月 💰** | 商業 API 定價公布:每百萬字符 < $1,每小時音頻 < $0.06。DeepInfra、fal、Replicate 開始託管 | |
| **至今 🌍** | 月下載 970 萬次、GitHub 7K ⭐、25+ 社群 finetune、38 adapter、35 quantization。社群移植:Rust(Kokoros)、JavaScript(kokoro.js)。詐騙網站出現(kokorottsai.com、kokorotts.net) |
訓練成本全貌
| 版本 | GPU 時數 | 時薪 | 成本 | 發布日 |
|---|---|---|---|---|
| v0.19 | 500 A100 | $0.80/h | $400 | 2024-12-25 |
| v1.0 | 500 A100 | $1.20/h | $600 | 2025-01-27 |
| v1.1-zh | 120 A100 | $0.90/h | $110 | 2025-02-26 |
| **總計** | **1120** | ~$1/h | **$1,110** |
為何不叫「團隊」?
Kokoro 的開發模式非常特殊:沒有組織、沒有公司、沒有正式團隊。它是一個完全由 Discord 社群驅動、Open Claw 風格(小規模、高效率、去中心化)的專案。
- hexgrad 寫了推理庫和 G2P 庫,但他大概沒有訓練模型——訓練是 @rzvzn 在 Discord 上遠端完成的
- 連訓練的 GPU 時數都來自匿名計算贊助者——不是公司預算,不是 grant
- 數據是合成產生的(來自封閉源碼 TTS 供應商)和社群捐贈的
- v1.1-zh 的中文數據來自中國公司免費貢獻
這背後只有一句話:一個 Discord 上的人訓練了一個模型,另一個人幫他寫了代碼,社群幫忙測試、評比、讚助、捐贈數據——然後爆紅了。
分析
技術意義
1. 82M 參數 vs SOTA 品質是最大亮點。Kokoro 證明了 TTS 領域不一定需要超大模型——精心設計的架構 + 高品質訓練數據可以「以小博大」。
2. 極低訓練成本(~$1,000) 讓它幾乎任何人都可以復現或微調。HF 上有 25 個 finetune、38 個 adapter、35 個 quantization 版本。
3. Apache 2.0 授權徹底消除了商用顧慮。
4. monthly 970 萬下載說明它的社區採用率極高,已經在大量專案中實際部署。
與我們項目的關聯
- Jay 目前使用 OpenClaw,而 Kokoro 可以直接集成為 TTS 後端。
pip install kokoro後一行 Python 就能生成語音,非常適合作為 OpenClaw 的 TTS 輸出通道。 - 開源、輕量、Apache 2.0 —— 不需要呼叫商業 API、不需要 GPU。
- 支援中文普通話(lang_code='z'),對中文用戶友善。
需要注意的點
- 沒有 encoder,意味著對細粒度語音控制(如精確的語調變化)可能不如擴散模型架構。
- 部分語言需要額外依賴(日語需
misaki[ja],中文需misaki[zh],需 espeak-ng) - 沒有組織支持——如果 hexgrad 某天消失,專案可能停滯。這是風險,也是它的魅力。
- 有詐騙網站冒充 Kokoro(kokorottsai.com, kokorotts.net),需注意辨識。
- 核心訓練者 @rzvzn 完全匿名,外界對他/她一無所知。
評分
| 維度 | 評分 | 說明 |
|---|---|---|
| 技術深度 | ⭐⭐⭐⭐ | StyleTTS 2 + ISTFTNet,架構精簡但有效 |
| 實用性 | ⭐⭐⭐⭐⭐ | pip install 一行就可使用,API 成本極低 |
| 創新性 | ⭐⭐⭐ | 沒有引入全新架構,但以小博大的結果令人驚艷 |
| 文件品質 | ⭐⭐⭐⭐ | README 清晰,多語言支援說明完整 |
| 與我們項目相關性 | ⭐⭐⭐⭐ | 可作為 OpenClaw 的 TTS 後端,開源免費 |
綜合評分:8.5/10
相關連結
- GitHub 倉庫:https://github.com/hexgrad/kokoro
- Hugging Face 模型:https://huggingface.co/hexgrad/Kokoro-82M
- 在線 Demo:https://hf.co/spaces/hexgrad/Kokoro-TTS
- PyPI 套件:https://pypi.org/project/kokoro/
- UnfoldAI 深入分析:https://unfoldai.com/kokoro-82m/
- StyleTTS 2 論文:https://arxiv.org/abs/2306.07691
- ISTFTNet 論文:https://arxiv.org/abs/2203.02395
- misaki G2P 庫:https://github.com/hexgrad/misaki
- TTS Spaces Arena:https://huggingface.co/spaces/Pendrokar/TTS-Spaces-Arena
- hexgrad HF 文章「G2P Shrinks Speech Models」:https://huggingface.co/blog/hexgrad/g2p
- hexgrad 的 Hugging Face 主頁:https://huggingface.co/hexgrad
- yl4579 / Aaron Li(StyleTTS 2 作者):https://github.com/yl4579
- Reddit r/LocalLLaMA 發布討論:https://www.reddit.com/r/LocalLLaMA/comments/1hwf4jm/second_take_kokoro82m_is_an_apache_tts_model/
- 龍貓數據 (LongMaoData):https://www.longmaosoft.com/
- EVAL.md 評測數據:https://huggingface.co/hexgrad/Kokoro-82M/blob/main/EVAL.md