ATLAS：自我进化的 AI 交易 Agent 系统——Karpathy Autoresearch 的金融市场版

🎯 一句话版本

关于ATLAS：自我进化的 AI 交易 Agent 系统——Karpathy Autoresearch 的金融市场版的深度研究报告

> 来源: https://github.com/chrisworsey55/atlas-gic

> 作者: Chris Worsey（CEO, General Intelligence Capital）

> 官网: https://generalintelligencecapital.com

> Stars: 714 | Forks: 153

> 创建: 2026-03-11（仅 2 天前）

> 灵感来源: Karpathy 的 autoresearch（https://github.com/karpathy/autoresearch）

> 日期: 2026-03-13

📌 一句话总结

把 Karpathy 的 autoresearch 思路搬到金融市场：25 个 AI Agent 每天辩论市场，用 Sharpe Ratio 作为 loss function 对 prompt 做进化优化。378 天回测，部署阶段 173 天 +22% 收益。$20/月的 VM 替代 H100。

🧠 核心思想

Karpathy 的 autoresearch：

Agent 修改训练代码（train.py）
5 分钟 GPU 训练
检查 validation loss
好就保留，差就 revert

ATLAS 的金融版：

系统找到 Sharpe 最差的 Agent
生成一个针对性的 prompt 修改
跑 5 个交易日
检查 Sharpe 是否改善
改善 → git commit，没改善 → git revert

> "Agent prompts 就是 weights。Sharpe ratio 就是 loss function。不需要 GPU。"

🏗️ 四层架构（25 个 Agent）

Layer 1 — 宏观（10 个 Agent）

Agent	职责
央行	货币政策方向
地缘政治	全球冲突/协议
中国	中国经济政策
美元	美元强弱趋势
收益率曲线	利率结构
大宗商品	原材料趋势
波动率	VIX/恐慌情绪
新兴市场	EM 资金流向
新闻情绪	舆论分析
机构资金流	大资金动向

输出：设定宏观体制——Risk On 还是 Risk Off？

Layer 2 — 行业组（7 个 Agent）

半导体、能源、生物科技、消费、工业、金融，外加一个 Bloomberg 式关系映射 Agent（追踪供应链、持股、分析师覆盖、竞争格局）。

输入：Layer 1 的宏观体制

输出：每个行业内最佳标的

Layer 3 — 超级投资者（4 个 Agent）

Agent	风格	关注点
Druckenmiller	宏观/动量	大的非对称交易
Aschenbrenner	AI/算力	Capex 周期受益者
Baker	深度科技/生物	真正的 IP 护城河
Ackman	质量复合	定价权 + FCF + 催化剂

用不同投资哲学过滤 Layer 2 的选股。

Layer 4 — 决策（4 个 Agent）

Agent	职责
CRO（风控官）	对抗性角色——攻击每个想法，找相关风险
Alpha Discovery	找其他人都没提到的标的
Autonomous Execution	把信号转化为有仓位大小的交易
CIO（首席投资官）	综合所有层级，按达尔文权重加权，做最终决定

关键设计：CIO 只看到经过三轮分析存活下来的想法。

🧬 达尔文权重系统

每个 Agent 有 0.3（最低，几乎静音）到 2.5（最高，高度信任）的权重：

每天收盘后，前 25% Agent → 权重 ×1.05
后 25% Agent → 权重 ×0.95
CIO 按权重比例加权各 Agent 的输入

> 好的 Agent 越来越响，差的 Agent 越来越静。系统自己学会信任谁。

📈 18 个月回测结果

周期：2024 年 9 月 — 2026 年 3 月（378 个交易日）

Autoresearch 统计

指标	数值
Prompt 修改尝试	54 次
保留（改善了）	16 次（30%）
回滚（没改善）	37 次（70%）
被修改的 Agent	波动率、半导体、中国、新闻情绪、新兴市场、金融等

业绩

指标	数值
部署阶段收益	+22%（173 天）
最佳单次选股	AVGO $152 买入，+128%
回测总成本	~$50-80（18 个月）

关键发现

CIO Agent 被自己的系统降权到最低 —— 达尔文系统发现编排层是瓶颈，自动把 CIO 降到 0.3（最低权重）。

> "在任何多 Agent 系统中，综合/决策层才是瓶颈。只提升单个 Agent 智能而不改善编排，收益递减。"

💻 技术栈

组件	选择
LLM	Claude Sonnet（Anthropic API）
数据	FMP, Finnhub, Polygon, FRED
基础设施	Azure VM $20/月
版本控制	Git feature branches（追踪 autoresearch）
回测成本	~$50-80（18 个月全量）

⚠️ 需要注意的

1. 训练后的 prompts 不开源：仓库只有框架和结果，核心 IP（378 天进化的 prompts）是专有的

2. 仓库极新：2 天前创建（2026-03-11），没有实际代码，只有 README + 结果图

3. 没有可运行的代码：language: null——仓库里没有代码文件

4. 回测 ≠ 实盘：+22% 是回测结果，实盘表现待验证

5. General Intelligence Capital：看起来是一个人/小团队的基金，网站信息有限

💡 与我们的关联

1. Autoresearch 思路可泛化：把"用结果反馈自动优化 prompt"应用到我们的场景——比如用报告质量评分自动优化 researcher Agent 的 system prompt

2. 达尔文权重借鉴：如果我们有多个 Agent 处理同类任务，可以按表现自动调整信任权重

3. 编排瓶颈洞察："多 Agent 系统中，决策层比执行层更重要"——这对我们设计 Agent 协作架构有参考价值

4. 成本参考：18 个月 25 Agent 回测只花 $50-80，说明 Claude Sonnet 的 token 成本控制做得好

5. 与 xingpt 的原油系统互补：xingpt 是手动配置的监控系统，ATLAS 是自动进化的决策系统——两种思路的对比

📊 评分

维度	评分（/10）
创意	9.0 — Karpathy autoresearch 在金融的首次系统化应用
架构设计	8.5 — 四层+达尔文权重，设计精巧
可验证性	5.0 — 只有回测曲线，没有代码，无法复现
实用价值	6.0 — 框架思路有价值，但核心 prompts 不开源
与我们的关联	7.0 — autoresearch 和达尔文权重思路可借鉴
综合	7.5

报告由深度研究助手自动生成 | 2026-03-13

来源: https://github.com/chrisworsey55/atlas-gic

免责声明：本报告仅供研究参考，不构成任何投资建议。

评分

维度	分数	说明
创意	?/10
技术深度	?/10
实用性	?/10
影响力	?/10
数据支撑	?/10
与我们的相关性	?/10
综合	?/10	需要后续评估

> 一句话总结：（报告的核心价值与我们的关联）

评分

维度	分数	说明
创意	?/10
技术深度	?/10
实用性	?/10
影响力	?/10
数据支撑	?/10
与我们的相关性	?/10
综合	?/10	需要后续评估

> 一句话总结：（报告的核心价值与我们的关联）