Thinking with Visual Primitives — DeepSeek 多模态推理新范式

一句话版本

DeepSeek 发了一篇论文,教会了 AI 在思考时「用手指点着图片说」,而不是模糊地描述「左边那个大的」—— 让 AI 直接在思维链里嵌入坐标和边框,在数人头、走迷宫这些任务上碾压了 GPT-5.4 和 Claude Sonnet 4.6。

核心问题:Reference Gap(指代鸿沟)

现有的多模态大模型能「看见」,但不一定能「想清楚」。论文一开头就扎了所有 frontier 模型的心:

这不是模型看不清图的问题,是模型在 思考时根本抓不住它想谈的视觉对象

现有模型用自然语言构建 Chain-of-Thought,但自然语言天生模糊:「左边那个大的」、「靠近中央的红色物体」—— 在密集场景里根本无法精确定位。注意力在推理过程中逐渐 漂移,越说越乱。

学术界此前的思路是让模型「看得更清楚」(高分辨率切割、动态分块),但这解决的是 Perception Gap。DeepSeek 指出:感知再强,也代替不了精确的指代能力。

核心创新

1. 坐标 = 思维单元

一句话概括:把点坐标和边界框变成推理的基本单位,像文字一样穿插在思维链里。

传统做法中,边界框是输出的「答案」:模型先想清楚,再告诉你「目标在坐标 [100,200,300,400]」。这是事后标注,不是思考工具。

DeepSeek 的做法完全不同。模型推理时,每当提到一个视觉对象就同步输出坐标:

> 「扫描图片找熊,找到一只 <|ref|>熊<|/ref|><|box|>[[452,23,804,411]]<|/box|>,它正在爬树,排除。再往左下看,找到另一只 <|ref|>熊<|/ref|><|box|>[[50,447,647,771]]<|/box|>,站在岩石边缘,符合条件。」

这就像人类数东西时会用手指逐一点过去。坐标不再是答案,而是 推理过程中消除歧义的锚点。逻辑链被钉在图片的物理坐标上,不会漂移。

两种视觉原语:

2. 7056 倍视觉压缩

阶段Token 数压缩倍数
原始像素(756×756)
ViT 图像块 token2,916
3×3 空间压缩324
CSA 压缩 KV 缓存81
**整体压缩****81****7056×**

一张 800×800 的图,DeepSeek 只需要 约 90 个 KV 缓存条目,对比:

论文论点:精确的空间指代能力可以弥补视觉 token 不足。模型不需要「看更多」,而需要「指更准」。

3. 冷启动数据设计

团队爬取了近 10 万个目标检测数据集,两轮筛选后保留约 3.17 万 高质量数据源,生成 超过 4000 万条 训练样本。

四类特殊任务:

任务类型数量描述
计数(粗/细粒度)大量粗粒度:一次框出所有候选→数;细粒度:逐一扫描核对属性
空间推理 VQA大量GQA(自然场景)+ CLEVR(可控合成)多跳推理
迷宫导航46 万条DFS/Prim/Kruskal 生成矩形/圆形/六边形迷宫,含无解迷宫
路径追踪12.5 万条多条贝塞尔曲线交叉,模型需追踪指定起点到终点

训练流程:「先分家,再合体」


FTwG (框专家) ── GRPO RL ──┐
                              ├── Unified RFT ── On-Policy Distillation ── 统一模型 F
FTwP (点专家) ── GRPO RL ──┘

1. 两个专家模型:FTwG(边界框数据)和 FTwP(点坐标数据)分开训练,避免互相干扰

2. GRPO 强化学习:格式奖励(输出格式正确)+ 质量奖励(LLM 评判思考一致)+ 精度奖励(任务特定)三路并行

- 计数任务用平滑指数衰减奖励而非二值对错

- 迷宫任务分解为 5 个子奖励信号

3. Unified RFT:用两个专家的 rollout 数据统一强化微调

4. On-Policy Distillation:学生模型生成轨迹,最小化与专家分布的 KL 散度

实验结果

架构:DeepSeek V4-Flash 语言主干(284B 总参数 / 13B 激活 MoE)+ 自研 ViT

计数任务

基准本模型GPT-5.4Gemini-3-FlashClaude S4.6Qwen3-VL-235B
Pixmo-Count**89.2%**76.6%88.2%68.7%
DS_Finegrained_Counting**88.7%**87.2%

空间推理

基准本模型排名
MIHBench**85.3%**#1
SpatialMQA**69.4%**#1

拓扑推理(差距最大)

基准本模型GPT-5.4Gemini-3-FlashClaude S4.6
DS_Maze_Navigation**66.9%**50.6%49.4%48.9%
DS_Path_Tracing**56.7%**46.5%41.4%

迷宫推理上,本模型比 GPT-5.4 高 16.3 个百分点,比 Claude 高 18 个百分点。论文坦诚指出:所有 frontier 模型在拓扑推理上均表现欠佳,多模态推理仍有巨大提升空间。

局限性

1. 需要触发词:目前模型不会自主判断何时该启用视觉原语,需要明确的 prompt 触发

2. 分辨率限制:极细粒度场景下,视觉原语位置偶尔不够精准(团队认为与高分辨率感知方案结合是自然下一步)

3. 泛化有限:点坐标解决复杂拓扑推理的跨场景泛化能力仍有限

与我们项目的关联

评分

维度评分说明
创新性⭐⭐⭐⭐⭐视觉原语作为推理单元,概念简洁但力量巨大
实用性⭐⭐⭐⭐拓扑推理提升显著,但计数增益相对较窄
论文质量⭐⭐⭐⭐⭐实验设计严谨,奖励机制细致,诚实指出局限
与我们相关⭐⭐⭐⭐V4-Flash 底层 + 低资源高效推理,直接可用
总体推荐⭐⭐⭐⭐⭐2026 年最值得读的多模态论文之一

报告完毕。详细技术细节请参阅原论文 PDF