OpenMythos — Claude Mythos 架构的开源理论复现
> 一句话版本:社区根据公开研究论文,从第一性原理"逆向工程"了 Anthropic Claude Mythos 的疑似架构——循环深度 Transformer(RDT)。不是官方泄露,而是学术推导。8,796 stars,4 天。
| 项目 | 信息 | ||
|---|---|---|---|
| 来源 | [github.com/kyegomez/OpenMythos](https://github.com/kyegomez/OpenMythos) | ||
| Stars | 8,796 | Forks | 1,861 |
| 创建 | 2026-04-18 | 语言 | Python |
| 协议 | MIT | 作者 | kyegomez |
⚠️ 重要声明
这不是 Anthropic 的代码,也不是泄露。 作者明确声明:独立社区驱动的理论复现,仅基于公开研究文献和推测。不隶属于 Anthropic。
核心架构:Recurrent-Depth Transformer (RDT)
Claude Mythos 疑似使用了循环深度 Transformer(也叫 Looped Transformer)。不是堆叠数百个不同层,而是让一小部分层循环运行多次。
三阶段结构
Input
↓
[Prelude P] — 标准 Transformer 层,运行一次
↓
[Recurrent Block R] — 循环 T 次
↑_______↓ (隐藏状态 h 每轮更新,输入注入 e 保持信号)
↓
[Coda C] — 标准 Transformer 层,运行一次
↓
Output
循环更新规则
h_{t+1} = A·h_t + B·e + Transformer(h_t, e)
h_t— 第 t 轮的隐藏状态e— Prelude 编码的输入,每轮都注入(防止漂移)A,B— 学习的注入参数
关键:这不是 Chain-of-Thought
- CoT 在 token 空间输出中间步骤
- RDT 在连续潜空间里静默推理,无中间 token 输出
- 每个 loop 等效于一步 CoT,但可以同时编码多条推理路径(广度优先搜索)
稳定性保证:Parcae 架构
循环模型的训练极不稳定(隐藏状态爆炸 / loss spike)。解决方案:
将循环建模为离散线性时不变(LTI)系统:
- 稳定性由注入矩阵 A 的谱半径 ρ(A) 决定
- ρ(A) < 1 → 稳定;ρ(A) ≥ 1 → 发散
- 参数化为连续负对角矩阵 → ρ(A) < 1 由构造保证
这就是 Parcae 架构(Prairie et al., 2026),也是 Anthropic 最可能采用的方案。
缩放定律
- 770M 参数循环模型 = 1.3B 固定深度 Transformer 的质量(省约一半参数)
- 训练时:增加循环次数 + 减少数据量 > 固定循环 + 更多数据
- 推理时:更多循环 = 可预测的指数衰减提升(收益递减)
注意力机制:MLA / GQA 可切换
| 选项 | 说明 |
|---|---|
| `gqa` | Grouped Query Attention,KV 头 < Q 头,减少 KV cache |
| `mla` | Multi-Latent Attention(DeepSeek-V2),缓存压缩 KV 潜表示 |
Mixture of Experts(MoE)
循环提供推理深度,MoE 提供知识广度:
- 每个 FFN 拆成多个小专家(1/m 正常大小)
- Router 选择 top-mK 个专家/token
- 少量共享专家始终激活(吸收跨领域通用知识)
- 负载均衡:router logits 的 bias 项动态调整
如果激活比 ~5%,Mythos 可以有数千亿总参数但每 token 只激活一小部分。
预置模型规模
| 变体 | dim | Experts | Loop Iters | Context | Max Output |
|---|---|---|---|---|---|
| mythos_1b | 2048 | 64 | 16 | 4k | 4k |
| mythos_3b | 3072 | 64 | 16 | 4k | 4k |
| mythos_10b | 4096 | 128 | 24 | 8k | 4k |
| mythos_50b | 6144 | 256 | 32 | 8k | 4k |
| mythos_100b | 8192 | 256 | 32 | 1M | 128k |
| mythos_500b | 12288 | 512 | 48 | 1M | 128k |
| mythos_1t | 16384 | 512 | 64 | 1M | 128k |
"过度思考"问题
循环不是越多越好。超过一定深度,隐藏状态漂移到噪声。解决方案:
Adaptive Computation Time (ACT):每个位置学习一个标量,动态决定何时停止循环。简单 token 早停,困难 token 多算。
架构特性解释 Mythos 的行为特征
| 观察 | 架构解释 |
|---|---|
| 新问题推理极强 | 循环的系统性泛化(三阶段 grokking) |
| 事实回忆不稳定 | 循环偏向组合而非记忆 |
| 处理多领域 | MoE 提供广度 |
| 推理质量突然跃升 | capability phase-transition(不是渐进) |
快速上手
pip install open-mythos
python -c "
from open_mythos import mythos_7b, OpenMythos
model = OpenMythos(mythos_7b())
print(sum(p.numel() for p in model.parameters()))
"
训练脚本在 training/3b_fine_web_edu.py,支持单卡和多卡(PyTorch DDP)。
分析
优势:
- 🔥 教育价值极高——从第一性原理解释了循环 Transformer,代码可运行
- 🔥 理论基础扎实——引用 Saunshi et al. 2025、Prairie et al. 2026 等论文
- 🔥 可切换 MLA/GQA——方便对比两种注意力机制
- 📊 增长极快——4 天 8,796 stars,社区关注度高
- 🎯 预置 1B-1T 配置——可以直接实验不同规模
风险:
- ⚠️ 不是真正的 Mythos——纯理论推测,可能和实际架构差很远
- ⚠️ 无法验证——Anthropic 没有公开 Mythos 架构细节
- ⚠️ 未训练到大模型——3B FineWeb-Edu 训练脚本只是概念验证
- 🟡 4 天的项目——代码质量和长期维护存疑
与 Jay 的关联:
- 🔥 AI 架构研究——Jay 关注 AI Agent 和模型架构,OpenMythos 是理解前沿模型设计的好教材
- 循环 Transformer 概念——与 AI Agent 的多步推理直接相关
- 参数效率——770M 循环 = 1.3B 固定深度,对本地部署有意义(Jay 的 Mac M3 Air 24GB)
评分
| 维度 | 评分 (1-10) | 说明 |
|---|---|---|
| 教育价值 | 10 | 理解循环 Transformer 的最佳开源实现 |
| 创新性 | 7 | 组合已有研究成果,但组合得好 |
| 实用性 | 5 | 概念验证阶段,无法用于生产 |
| 代码质量 | 7 | 结构清晰,文档完善 |
| 准确性 | ? | 无法验证是否接近真实 Mythos |
| 与 Jay 的关联 | 8 | AI 架构研究的好教材 |
| **总分** | **7.5** | 循环 Transformer 的开源教科书 |