Trust Topology — 从不可靠的 Agent 中工程化信任

> 一句话版本:一位 35 年经验的软件工程领导者用 97 天、5109 次 gate check 的实战数据证明:AI Agent 系统的可靠性取决于验证门的排列方式,而不是模型本身的能力。核心洞察和分布式系统一样——"让协议可靠,而不是让节点可靠"。

项目信息
来源https://michael.roth.rocks/research/trust-topology/
作者Michael Rothrock(35 年软件工程经验)
类型研究演示(slides 形式)
数据规模5,109 gate checks / 1,450 rejections / 97 天 / 8 项目
前置研究[543 Hours of Autonomous AI](https://michael.roth.rocks/research/543-hours/) / [Gate Analysis](https://michael.roth.rocks/research/gate-analysis/)

核心内容

一句话论点

> "Alignment is undecidable. Trust is measurable."(对齐是不可判定的,信任是可度量的。)

核心问题

LLM 输出"看起来对但实际错",这是 CI/CD 从未遇到过的问题:

实践者的问题:既然不能信任模型输出,如何工程化出可靠的系统?

答案:和分布式系统一样——让可靠性成为协议的属性,而不是节点的属性。AI Agent 只是又一个不可靠的组件。

四阶段论证

1. 问题:LLM 输出不可预测,但失败有结构可利用

2. 重新定向:分布式系统研究者几十年前就解决了类似问题

3. 框架:四个属性构成 gate 拓扑的设计演算

4. 动态:拓扑会演化,系统在不换模型的情况下学习

实证数据:87% 的错误是可预测的

错误类型占比说明
**遗漏(Omission)**49%忘了做某事(最容易被 gate 抓到)
**系统性错误(Systematic)**38%一致地做错某事
**不一致(Incoherent)**12.7%内部自相矛盾

关键发现

四个诊断属性

1. Overlap Ratio(重叠率)

如果两个 gate 有 80% 的拒绝重合,你只有一个 gate 跑了两次。重叠率越低,每个后续 gate 贡献越大。

> "You need a different kind of gate, not more passes through the same one."

这解释了为什么 majority voting 和 reward model 在几百个 sample 后就 plateau——验证信号重叠度太高。

2. Verification Amplification(验证放大)

上游 gate 约束下游 gate 的输入。Plan gate(61% 拒绝率)在最前面过滤了最多的错误,让后续 gate 的负担更轻。

关键洞察:上游 gate 弱是最昂贵的问题——它会放过有缺陷的产物,浪费所有下游的算力。

3. Deterministic Ceiling(确定性天花板)

随机验证器(LLM 当 judge)能捕获不一致和系统性错误,但对遗漏无能为力——checklist、lint、test 这些确定性检查才能抓遗漏。每种 gate 类型都有它注定抓不到的错误。

4. Liveness Constraint(活性约束)

Gate 越多越安全,但越多越慢。系统必须在"安全"和"推进"之间找平衡。过多的 gate 会导致 Agent 永远无法交付。

三个设计杠杆

杠杆控制什么效果
**分解(Decomposition)**推理链长度有界任务 + 新上下文 → 不一致变遗漏
**验证多样性(Verification Diversity)**重叠率不同 artifact 类型的 gate 减少盲区
**Oracle 路由(Oracle Routing)**升级路径随机验证器在 auto-fix 和人工判断之间分流

四层 Gate 实际配置

Gate检查数拒绝率最擅长抓不一致检测
Plan Review1,19361%遗漏(54%)10.5%
Design Review1,49137%系统性(48%)15.6%
Code Review(文件级)34040%系统性(56%)**0%**
Code Review(全上下文)2,08528%遗漏(55%)16%

人类意图的本质

意图是不可观察的。用户的目标在脑子里,每个产出物(spec、plan、design、code)都是意图的一个低保真投影。Gate 验证的是投影之间的一致性,而不是对意图本身的对应。这就是为什么系统需要升级路径(escalation)——有些不一致只有人类才能判断。

和 inference-scaling 文献的关联

Trust Topology 解释了为什么这些结果成立:它们在组件层面操作,但问题本质是系统层面的。

Q&A:用 OpenClaw 写报告的具体例子

场景:用户发链接 → Agent 抓取 → 搜索 → 写报告 → 发布

没有 gate 的情况(现在的流程):

加了 gate 后

Gate 1: Plan Review(生成前)

Gate 2: Content Review(写完后)

Gate 3: File-scope Check(确定性)

Gate 4: Cross-reference Check(全上下文)

重叠率的体现

验证放大的体现

分解把不一致变遗漏的体现

Gate 的两种类型

确定性 gate(脚本/规则)

随机性 gate(LLM 当 judge)

Rothrock 的实际配置(4 个 gate 串联):


用户需求 → [Plan Review] → [Design Review] → [文件级Code Review] → [全上下文Code Review] → 发布
             LLM judge      LLM judge          LLM judge + lint        LLM judge + test
             拒绝率 61%      拒绝率 37%          拒绝率 40%              拒绝率 28%

不通过就打回去让 Agent 修改,通过才进入下一个 gate。

分析

这篇文章的价值

和上一篇(分布式 LLMs 博客)的关系

局限

与 Jay 的关联

评分

维度评分 (1-10)说明
实证严谨度85109 次 gate check,分类详尽,单人但有数据
理论深度8分布式系统 + inference-scaling + 可计算性理论三连
实用价值9直接可操作的 gate 设计指南
创新性8"协议可靠性"视角应用于 AI Agent,gate topology 概念新颖
可复现性5单人研究,无公开数据集
与 Jay 的关联8直接适用于 OpenClaw/coding agent 的验证流程设计
**总分****7.7**当前 AI Agent 工程化信任的最佳实践框架

延伸阅读

这两篇文章是同一主题的理论 + 实践两面:

1. Multi-agentic Software Development is a Distributed Systems Problem — 理论(FLP、拜占庭、CAP)

2. Trust Topology(本文)— 实践(gate 设计、实证数据、工程框架)

建议按顺序阅读:先理解为什么问题本质上是分布式的,再看如何工程化应对。