OpenMythos — Claude Mythos 架构的开源理论复现

> 一句话版本:社区根据公开研究论文,从第一性原理"逆向工程"了 Anthropic Claude Mythos 的疑似架构——循环深度 Transformer(RDT)。不是官方泄露,而是学术推导。8,796 stars,4 天。

项目信息
来源[github.com/kyegomez/OpenMythos](https://github.com/kyegomez/OpenMythos)
Stars8,796Forks1,861
创建2026-04-18语言Python
协议MIT作者kyegomez

⚠️ 重要声明

这不是 Anthropic 的代码,也不是泄露。 作者明确声明:独立社区驱动的理论复现,仅基于公开研究文献和推测。不隶属于 Anthropic。

核心架构:Recurrent-Depth Transformer (RDT)

Claude Mythos 疑似使用了循环深度 Transformer(也叫 Looped Transformer)。不是堆叠数百个不同层,而是让一小部分层循环运行多次。

三阶段结构


Input
  ↓
[Prelude P] — 标准 Transformer 层,运行一次
  ↓
[Recurrent Block R] — 循环 T 次
  ↑_______↓ (隐藏状态 h 每轮更新,输入注入 e 保持信号)
  ↓
[Coda C] — 标准 Transformer 层,运行一次
  ↓
Output

循环更新规则


h_{t+1} = A·h_t + B·e + Transformer(h_t, e)

关键:这不是 Chain-of-Thought

稳定性保证:Parcae 架构

循环模型的训练极不稳定(隐藏状态爆炸 / loss spike)。解决方案:

将循环建模为离散线性时不变(LTI)系统

这就是 Parcae 架构(Prairie et al., 2026),也是 Anthropic 最可能采用的方案。

缩放定律

注意力机制:MLA / GQA 可切换

选项说明
`gqa`Grouped Query Attention,KV 头 < Q 头,减少 KV cache
`mla`Multi-Latent Attention(DeepSeek-V2),缓存压缩 KV 潜表示

Mixture of Experts(MoE)

循环提供推理深度,MoE 提供知识广度

如果激活比 ~5%,Mythos 可以有数千亿总参数但每 token 只激活一小部分。

预置模型规模

变体dimExpertsLoop ItersContextMax Output
mythos_1b204864164k4k
mythos_3b307264164k4k
mythos_10b4096128248k4k
mythos_50b6144256328k4k
mythos_100b8192256321M128k
mythos_500b12288512481M128k
mythos_1t16384512641M128k

"过度思考"问题

循环不是越多越好。超过一定深度,隐藏状态漂移到噪声。解决方案:

Adaptive Computation Time (ACT):每个位置学习一个标量,动态决定何时停止循环。简单 token 早停,困难 token 多算。

架构特性解释 Mythos 的行为特征

观察架构解释
新问题推理极强循环的系统性泛化(三阶段 grokking)
事实回忆不稳定循环偏向组合而非记忆
处理多领域MoE 提供广度
推理质量突然跃升capability phase-transition(不是渐进)

快速上手


pip install open-mythos

python -c "
from open_mythos import mythos_7b, OpenMythos
model = OpenMythos(mythos_7b())
print(sum(p.numel() for p in model.parameters()))
"

训练脚本在 training/3b_fine_web_edu.py,支持单卡和多卡(PyTorch DDP)。

分析

优势

风险

与 Jay 的关联

评分

维度评分 (1-10)说明
教育价值10理解循环 Transformer 的最佳开源实现
创新性7组合已有研究成果,但组合得好
实用性5概念验证阶段,无法用于生产
代码质量7结构清晰,文档完善
准确性?无法验证是否接近真实 Mythos
与 Jay 的关联8AI 架构研究的好教材
**总分****7.5**循环 Transformer 的开源教科书