Kokoro-82M — 82M 參數的開源 TTS 王者

来源链接： https://github.com/hexgrad/kokoro
模型： https://huggingface.co/hexgrad/Kokoro-82M
授权： Apache 2.0
日期： 2026-05-17

一句话版本

Kokoro 是一個只有 82M 參數的文字轉語音（TTS）模型，卻在 TTS Spaces Arena 評比中打敗了 14 倍大的模型——開源、安裝只需 pip install kokoro、一行 Python 就能把文字變成自然語音，API 成本不到每百萬字符 1 美元。

核心內容

這是什麼？

Kokoro-82M 是由 hexgrad 開源的輕量級 TTS 模型，基於 StyleTTS 2 架構，僅 82M 參數，Apache 2.0 授權。與多數需要數百 GB 顯存的大型 TTS 模型不同，Kokoro 可以在任何裝置上運行——從 Colab 到 MacBook 到生產伺服器。

核心數據

指標	數值
參數量	82M
訓練成本	約 $1,000 USD（1000 小時 A100 80GB）
訓練數據	幾百小時（開源音頻 + 合成數據）
授權	Apache 2.0
語言	8 種（美式/英式英語、西語、法語、印地語、義大利語、日語、葡語、中文）
聲音數	54 種
HF 月下載	970 萬次
GitHub Stars	7K

性能表現——以小博大

Kokoro 在 TTS Spaces Arena 獲得第一名的成績，打敗了參數量遠超它的模型：

模型	參數量	訓練數據
Kokoro-82M 🥇	82M	< 幾百小時
XTTS v2	467M (5.7x)	10,000+ 小時
Fish Speech	~500M (6x)	1,000,000+ 小時
MetaVoice	1.2B (14.6x)	100,000+ 小時

這意味著 Kokoro 在效率上遠超同儕：用 1/14 的參數、1/1000 的訓練數據，達到了更好的效果。

安裝與使用


pip install kokoro soundfile


from kokoro import KPipeline
import soundfile as sf

pipeline = KPipeline(lang_code='a')  # a = 美式英語
text = "Kokoro is an open-weight TTS model with 82 million parameters."
generator = pipeline(text, voice='af_heart')

for i, (gs, ps, audio) in enumerate(generator):
    sf.write(f'{i}.wav', audio, 24000)  # 輸出 24kHz WAV

支援的語言代碼：

🇺🇸 'a' — 美式英語
🇬🇧 'b' — 英式英語
🇪🇸 'e' — 西班牙語
🇫🇷 'f' — 法語
🇮🇳 'h' — 印地語
🇮🇹 'i' — 義大利語
🇯🇵 'j' — 日語（需 pip install misaki[ja]）
🇧🇷 'p' — 巴西葡語
🇨🇳 'z' — 普通話（需 pip install misaki[zh]）

技術架構

Kokoro 基於兩個學術成果：

1. StyleTTS 2 (arXiv:2306.07691，Li et al.)：decoder-only 的風格 TTS，無需 diffusion 或額外 encoder

2. ISTFTNet (arXiv:2203.02395)：逆短時傅立葉轉換神經網路作為 vocoder

底層使用 misaki（hexgrad 自己的 G2P 庫）將文字轉為 IPA 音素。

Git 倉庫結構

奇怪的是這個倉庫混合了兩種語言——JavaScript 佔 51.5%、Python 佔 47.0%。這可能是因為它包含了一個 JS 版本的推理實現（kokoro.js/ 目錄），以及 web demo 的前端代碼。

API 成本

每百萬字符輸入：$0.65-0.80
每小時音頻輸出：低於 $0.06
相比營收模式的 TTS API 極具競爭力

服務商：DeepInfra、fal、Replicate

團隊背景與發展歷程

這是誰做的？

Kokoro 不是公司產品，沒有組織支持，沒有 VC 投資。它是一個完全由個人發起的社區驅動開源專案，背後的參與者：

角色	身份	貢獻
hexgrad 👤	GitHub/HF 匿名維護者	專案發起人、推理庫（kokoro pip 套件）和 misaki G2P 庫作者、HF Spaces demo 維護者。GitHub 上只有 kokoro 和 misaki 兩個 repo。HF 個人介紹中有一個亂碼字串 "Zvezdan"（斯拉夫語名字意為「星星」），此外沒有任何真實身分資訊
@rzvzn 🎯	Discord 匿名用戶	模型訓練者——整個 Kokoro 實際上是這個人在 Discord 上訓練出來的。沒有名字、沒有 GitHub，唯一存在痕跡就是 HF 模型卡上那行 "Trained by: @rzvzn on Discord"
yl4579 / Aaron (Yinghao) Li 🏛️	哥倫比亞大學研究員	StyleTTS 2 的架構設計者（Kokoro 的底層技術）。但他沒有參與 Kokoro——他的開源論文為 Kokoro 提供了基礎架構
Pendrokar / Yanis Lukes	Hugging Face 社群成員	創建 TTS Spaces Arena 排行榜，將 Kokoro 加入評比，幫助它獲得 #1 排名
LongMaoData（龍貓數據） 🇨🇳	中國專業數據公司	為 v1.1-zh 免費捐贈了 100 個中文語者數據集
SuperuserLabs / mingcheng / PATYai	GitHub Sponsors	三組已知的資金贊助者

發展歷程（6 個月從零到 970 萬月下載）

2024 年

日期	事件
11/22	v0.19 訓練開始。訓練數據 <100 小時。Koniwa CC BY 音頻 (<1h)、SIWIS CC BY 音頻 (<11h) 加入訓練集
12/25 🎄	v0.19 首次公開釋出！聖誕節當天，權重在 Apache 2.0 下以 full fp32 發布。1 種語言（英語）、10 種聲音。訓練成本：$400（500 A100 80GB GPU 小時 @ $0.80/h）

2025 年

日期	事件
~1/2	10 個獨特 voicepack 釋出，.onnx 版本可用
~1/8 🔥	Reddit r/LocalLLaMA 貼文引爆社群："Second Take: Kokoro-82M is an Apache TTS model"（216 讚、53 則討論）。模型訓練者親自現身回答問題
~1/11	r/Oobabooga 社群開始討論將 Kokoro 整合進 text-generation-webui
1/27 🚀	v1.0 釋出！重大升級：8 種語言、54 種聲音、幾百小時訓練數據。追加訓練成本 $600（500 A100 GPU 小時 @ $1.20/h）	總訓練成本：~$1,000
2/5	hexgrad 發布 HF 部落格文「G2P Shrinks Speech Models」，解釋 G2P（字素轉音素）預處理讓模型壓縮成為可能
2/26 🇨🇳	v1.1-zh 釋出！中文增強版。龍貓數據捐贈 100 個中文語者。103 種聲音、2 種語言（中英）。訓練成本 $110（120 A100 GPU 小時 @ $0.90/h）。總訓練成本全版本合計：$1,110
~2/26	EVAL 截圖：TTS Spaces Arena #1、TTS Arena #1、Artificial Analysis 頂尖排名
4 月 💰	商業 API 定價公布：每百萬字符 < $1，每小時音頻 < $0.06。DeepInfra、fal、Replicate 開始託管
至今 🌍	月下載 970 萬次、GitHub 7K ⭐、25+ 社群 finetune、38 adapter、35 quantization。社群移植：Rust（Kokoros）、JavaScript（kokoro.js）。詐騙網站出現（kokorottsai.com、kokorotts.net）

訓練成本全貌

版本	GPU 時數	時薪	成本	發布日
v0.19	500 A100	$0.80/h	$400	2024-12-25
v1.0	500 A100	$1.20/h	$600	2025-01-27
v1.1-zh	120 A100	$0.90/h	$110	2025-02-26
總計	1120	~$1/h	$1,110

為何不叫「團隊」？

Kokoro 的開發模式非常特殊：沒有組織、沒有公司、沒有正式團隊。它是一個完全由 Discord 社群驅動、Open Claw 風格（小規模、高效率、去中心化）的專案。

hexgrad 寫了推理庫和 G2P 庫，但他大概沒有訓練模型——訓練是 @rzvzn 在 Discord 上遠端完成的
連訓練的 GPU 時數都來自匿名計算贊助者——不是公司預算，不是 grant
數據是合成產生的（來自封閉源碼 TTS 供應商）和社群捐贈的
v1.1-zh 的中文數據來自中國公司免費貢獻

這背後只有一句話：一個 Discord 上的人訓練了一個模型，另一個人幫他寫了代碼，社群幫忙測試、評比、讚助、捐贈數據——然後爆紅了。

分析

技術意義

1. 82M 參數 vs SOTA 品質是最大亮點。Kokoro 證明了 TTS 領域不一定需要超大模型——精心設計的架構 + 高品質訓練數據可以「以小博大」。

2. 極低訓練成本（~$1,000） 讓它幾乎任何人都可以復現或微調。HF 上有 25 個 finetune、38 個 adapter、35 個 quantization 版本。

3. Apache 2.0 授權徹底消除了商用顧慮。

4. monthly 970 萬下載說明它的社區採用率極高，已經在大量專案中實際部署。

與我們項目的關聯

Jay 目前使用 OpenClaw，而 Kokoro 可以直接集成為 TTS 後端。pip install kokoro 後一行 Python 就能生成語音，非常適合作為 OpenClaw 的 TTS 輸出通道。
開源、輕量、Apache 2.0 —— 不需要呼叫商業 API、不需要 GPU。
支援中文普通話（lang_code='z'），對中文用戶友善。

需要注意的點

沒有 encoder，意味著對細粒度語音控制（如精確的語調變化）可能不如擴散模型架構。
部分語言需要額外依賴（日語需 misaki[ja]，中文需 misaki[zh]，需 espeak-ng）
沒有組織支持——如果 hexgrad 某天消失，專案可能停滯。這是風險，也是它的魅力。
有詐騙網站冒充 Kokoro（kokorottsai.com, kokorotts.net），需注意辨識。
核心訓練者 @rzvzn 完全匿名，外界對他/她一無所知。

評分

維度	評分	說明
技術深度	⭐⭐⭐⭐	StyleTTS 2 + ISTFTNet，架構精簡但有效
實用性	⭐⭐⭐⭐⭐	pip install 一行就可使用，API 成本極低
創新性	⭐⭐⭐	沒有引入全新架構，但以小博大的結果令人驚艷
文件品質	⭐⭐⭐⭐	README 清晰，多語言支援說明完整
與我們項目相關性	⭐⭐⭐⭐	可作為 OpenClaw 的 TTS 後端，開源免費

綜合評分：8.5/10

日期	事件
~1/2	10 個獨特 voicepack 釋出，.onnx 版本可用
~1/8 🔥	Reddit r/LocalLLaMA 貼文引爆社群："Second Take: Kokoro-82M is an Apache TTS model"（216 讚、53 則討論）。模型訓練者親自現身回答問題
~1/11	r/Oobabooga 社群開始討論將 Kokoro 整合進 text-generation-webui
1/27 🚀	v1.0 釋出！重大升級：8 種語言、54 種聲音、幾百小時訓練數據。追加訓練成本 $600（500 A100 GPU 小時 @ $1.20/h）	總訓練成本：~$1,000
2/5	hexgrad 發布 HF 部落格文「G2P Shrinks Speech Models」，解釋 G2P（字素轉音素）預處理讓模型壓縮成為可能
2/26 🇨🇳	v1.1-zh 釋出！中文增強版。龍貓數據捐贈 100 個中文語者。103 種聲音、2 種語言（中英）。訓練成本 $110（120 A100 GPU 小時 @ $0.90/h）。總訓練成本全版本合計：$1,110
~2/26	EVAL 截圖：TTS Spaces Arena #1、TTS Arena #1、Artificial Analysis 頂尖排名
4 月 💰	商業 API 定價公布：每百萬字符 < $1，每小時音頻 < $0.06。DeepInfra、fal、Replicate 開始託管
至今 🌍	月下載 970 萬次、GitHub 7K ⭐、25+ 社群 finetune、38 adapter、35 quantization。社群移植：Rust（Kokoros）、JavaScript（kokoro.js）。詐騙網站出現（kokorottsai.com、kokorotts.net）