ATLAS:自我进化的 AI 交易 Agent 系统——Karpathy Autoresearch 的金融市场版
> 来源: https://github.com/chrisworsey55/atlas-gic
> 作者: Chris Worsey(CEO, General Intelligence Capital)
> 官网: https://generalintelligencecapital.com
> Stars: 714 | Forks: 153
> 创建: 2026-03-11(仅 2 天前)
> 灵感来源: Karpathy 的 autoresearch(https://github.com/karpathy/autoresearch)
> 日期: 2026-03-13
📌 一句话总结
把 Karpathy 的 autoresearch 思路搬到金融市场:25 个 AI Agent 每天辩论市场,用 Sharpe Ratio 作为 loss function 对 prompt 做进化优化。378 天回测,部署阶段 173 天 +22% 收益。$20/月的 VM 替代 H100。
🧠 核心思想
Karpathy 的 autoresearch:
- Agent 修改训练代码(train.py)
- 5 分钟 GPU 训练
- 检查 validation loss
- 好就保留,差就 revert
ATLAS 的金融版:
- 系统找到 Sharpe 最差的 Agent
- 生成一个针对性的 prompt 修改
- 跑 5 个交易日
- 检查 Sharpe 是否改善
- 改善 →
git commit,没改善 →git revert
> "Agent prompts 就是 weights。Sharpe ratio 就是 loss function。不需要 GPU。"
🏗️ 四层架构(25 个 Agent)
Layer 1 — 宏观(10 个 Agent)
| Agent | 职责 |
|---|---|
| 央行 | 货币政策方向 |
| 地缘政治 | 全球冲突/协议 |
| 中国 | 中国经济政策 |
| 美元 | 美元强弱趋势 |
| 收益率曲线 | 利率结构 |
| 大宗商品 | 原材料趋势 |
| 波动率 | VIX/恐慌情绪 |
| 新兴市场 | EM 资金流向 |
| 新闻情绪 | 舆论分析 |
| 机构资金流 | 大资金动向 |
输出:设定宏观体制——Risk On 还是 Risk Off?
Layer 2 — 行业组(7 个 Agent)
半导体、能源、生物科技、消费、工业、金融,外加一个 Bloomberg 式关系映射 Agent(追踪供应链、持股、分析师覆盖、竞争格局)。
输入:Layer 1 的宏观体制
输出:每个行业内最佳标的
Layer 3 — 超级投资者(4 个 Agent)
| Agent | 风格 | 关注点 |
|---|---|---|
| **Druckenmiller** | 宏观/动量 | 大的非对称交易 |
| **Aschenbrenner** | AI/算力 | Capex 周期受益者 |
| **Baker** | 深度科技/生物 | 真正的 IP 护城河 |
| **Ackman** | 质量复合 | 定价权 + FCF + 催化剂 |
用不同投资哲学过滤 Layer 2 的选股。
Layer 4 — 决策(4 个 Agent)
| Agent | 职责 |
|---|---|
| **CRO(风控官)** | 对抗性角色——攻击每个想法,找相关风险 |
| **Alpha Discovery** | 找其他人都没提到的标的 |
| **Autonomous Execution** | 把信号转化为有仓位大小的交易 |
| **CIO(首席投资官)** | 综合所有层级,按达尔文权重加权,做最终决定 |
关键设计:CIO 只看到经过三轮分析存活下来的想法。
🧬 达尔文权重系统
每个 Agent 有 0.3(最低,几乎静音)到 2.5(最高,高度信任)的权重:
- 每天收盘后,前 25% Agent → 权重 ×1.05
- 后 25% Agent → 权重 ×0.95
- CIO 按权重比例加权各 Agent 的输入
> 好的 Agent 越来越响,差的 Agent 越来越静。系统自己学会信任谁。
📈 18 个月回测结果
周期:2024 年 9 月 — 2026 年 3 月(378 个交易日)
Autoresearch 统计
| 指标 | 数值 |
|---|---|
| Prompt 修改尝试 | 54 次 |
| 保留(改善了) | 16 次(30%) |
| 回滚(没改善) | 37 次(70%) |
| 被修改的 Agent | 波动率、半导体、中国、新闻情绪、新兴市场、金融等 |
业绩
| 指标 | 数值 |
|---|---|
| 部署阶段收益 | **+22%(173 天)** |
| 最佳单次选股 | **AVGO $152 买入,+128%** |
| 回测总成本 | **~$50-80**(18 个月) |
关键发现
CIO Agent 被自己的系统降权到最低 —— 达尔文系统发现编排层是瓶颈,自动把 CIO 降到 0.3(最低权重)。
> "在任何多 Agent 系统中,综合/决策层才是瓶颈。只提升单个 Agent 智能而不改善编排,收益递减。"
💻 技术栈
| 组件 | 选择 |
|---|---|
| LLM | Claude Sonnet(Anthropic API) |
| 数据 | FMP, Finnhub, Polygon, FRED |
| 基础设施 | Azure VM **$20/月** |
| 版本控制 | Git feature branches(追踪 autoresearch) |
| 回测成本 | ~$50-80(18 个月全量) |
⚠️ 需要注意的
1. 训练后的 prompts 不开源:仓库只有框架和结果,核心 IP(378 天进化的 prompts)是专有的
2. 仓库极新:2 天前创建(2026-03-11),没有实际代码,只有 README + 结果图
3. 没有可运行的代码:language: null——仓库里没有代码文件
4. 回测 ≠ 实盘:+22% 是回测结果,实盘表现待验证
5. General Intelligence Capital:看起来是一个人/小团队的基金,网站信息有限
💡 与我们的关联
1. Autoresearch 思路可泛化:把"用结果反馈自动优化 prompt"应用到我们的场景——比如用报告质量评分自动优化 researcher Agent 的 system prompt
2. 达尔文权重借鉴:如果我们有多个 Agent 处理同类任务,可以按表现自动调整信任权重
3. 编排瓶颈洞察:"多 Agent 系统中,决策层比执行层更重要"——这对我们设计 Agent 协作架构有参考价值
4. 成本参考:18 个月 25 Agent 回测只花 $50-80,说明 Claude Sonnet 的 token 成本控制做得好
5. 与 xingpt 的原油系统互补:xingpt 是手动配置的监控系统,ATLAS 是自动进化的决策系统——两种思路的对比
📊 评分
| 维度 | 评分(/10) |
|---|---|
| 创意 | 9.0 — Karpathy autoresearch 在金融的首次系统化应用 |
| 架构设计 | 8.5 — 四层+达尔文权重,设计精巧 |
| 可验证性 | 5.0 — 只有回测曲线,没有代码,无法复现 |
| 实用价值 | 6.0 — 框架思路有价值,但核心 prompts 不开源 |
| 与我们的关联 | 7.0 — autoresearch 和达尔文权重思路可借鉴 |
| **综合** | **7.5** |
报告由深度研究助手自动生成 | 2026-03-13
来源: https://github.com/chrisworsey55/atlas-gic
免责声明:本报告仅供研究参考,不构成任何投资建议。