Thinking with Visual Primitives — DeepSeek 多模态推理新范式

来源: GitHub Repo | 技术报告 PDF
发布日期: 2026-04-30
作者: DeepSeek × 北京大学 × 清华大学
报告日期: 2026-04-30

一句话版本

DeepSeek 发了一篇论文，教会了 AI 在思考时「用手指点着图片说」，而不是模糊地描述「左边那个大的」—— 让 AI 直接在思维链里嵌入坐标和边框，在数人头、走迷宫这些任务上碾压了 GPT-5.4 和 Claude Sonnet 4.6。

核心问题：Reference Gap（指代鸿沟）

现有的多模态大模型能「看见」，但不一定能「想清楚」。论文一开头就扎了所有 frontier 模型的心：

GPT-5.4 看到密集人群照，数不清楚有多少人
Claude Sonnet 4.6 看到复杂电路图，说不清左边电容和右边电感的位置关系

这不是模型看不清图的问题，是模型在 思考时根本抓不住它想谈的视觉对象。

现有模型用自然语言构建 Chain-of-Thought，但自然语言天生模糊：「左边那个大的」、「靠近中央的红色物体」—— 在密集场景里根本无法精确定位。注意力在推理过程中逐渐漂移，越说越乱。

学术界此前的思路是让模型「看得更清楚」（高分辨率切割、动态分块），但这解决的是 Perception Gap。DeepSeek 指出：感知再强，也代替不了精确的指代能力。

核心创新

1. 坐标 = 思维单元

一句话概括：把点坐标和边界框变成推理的基本单位，像文字一样穿插在思维链里。

传统做法中，边界框是输出的「答案」：模型先想清楚，再告诉你「目标在坐标 [100,200,300,400]」。这是事后标注，不是思考工具。

DeepSeek 的做法完全不同。模型推理时，每当提到一个视觉对象就同步输出坐标：

> 「扫描图片找熊，找到一只 <|ref|>熊<|/ref|><|box|>[[452,23,804,411]]<|/box|>，它正在爬树，排除。再往左下看，找到另一只 <|ref|>熊<|/ref|><|box|>[[50,447,647,771]]<|/box|>，站在岩石边缘，符合条件。」

这就像人类数东西时会用手指逐一点过去。坐标不再是答案，而是 推理过程中消除歧义的锚点。逻辑链被钉在图片的物理坐标上，不会漂移。

两种视觉原语：

<|box|>：边界框，用于需要定位和尺寸信息的对象
<|point|>：点坐标，用于抽象空间指代（迷宫轨迹、曲线追踪）

2. 7056 倍视觉压缩

阶段	Token 数	压缩倍数
原始像素（756×756）	—	—
ViT 图像块 token	2,916	—
3×3 空间压缩	324	9×
CSA 压缩 KV 缓存	81	4×
整体压缩	81	7056×

一张 800×800 的图，DeepSeek 只需要 约 90 个 KV 缓存条目，对比：

Claude Sonnet 4.6: ~870
Gemini-3-Flash: ~1,100

论文论点：精确的空间指代能力可以弥补视觉 token 不足。模型不需要「看更多」，而需要「指更准」。

3. 冷启动数据设计

团队爬取了近 10 万个目标检测数据集，两轮筛选后保留约 3.17 万 高质量数据源，生成 超过 4000 万条 训练样本。

四类特殊任务：

任务类型	数量	描述
计数（粗/细粒度）	大量	粗粒度：一次框出所有候选→数；细粒度：逐一扫描核对属性
空间推理 VQA	大量	GQA（自然场景）+ CLEVR（可控合成）多跳推理
迷宫导航	46 万条	DFS/Prim/Kruskal 生成矩形/圆形/六边形迷宫，含无解迷宫
路径追踪	12.5 万条	多条贝塞尔曲线交叉，模型需追踪指定起点到终点

训练流程：「先分家，再合体」


FTwG (框专家) ── GRPO RL ──┐
                              ├── Unified RFT ── On-Policy Distillation ── 统一模型 F
FTwP (点专家) ── GRPO RL ──┘

1. 两个专家模型：FTwG（边界框数据）和 FTwP（点坐标数据）分开训练，避免互相干扰

2. GRPO 强化学习：格式奖励（输出格式正确）+ 质量奖励（LLM 评判思考一致）+ 精度奖励（任务特定）三路并行

- 计数任务用平滑指数衰减奖励而非二值对错

- 迷宫任务分解为 5 个子奖励信号

3. Unified RFT：用两个专家的 rollout 数据统一强化微调

4. On-Policy Distillation：学生模型生成轨迹，最小化与专家分布的 KL 散度

实验结果

架构：DeepSeek V4-Flash 语言主干（284B 总参数 / 13B 激活 MoE）+ 自研 ViT

计数任务

基准	本模型	GPT-5.4	Gemini-3-Flash	Claude S4.6	Qwen3-VL-235B
Pixmo-Count	89.2%	76.6%	88.2%	68.7%	—
DS_Finegrained_Counting	88.7%	—	—	—	87.2%

空间推理

基准	本模型	排名
MIHBench	85.3%	#1
SpatialMQA	69.4%	#1

拓扑推理（差距最大）

基准	本模型	GPT-5.4	Gemini-3-Flash	Claude S4.6
DS_Maze_Navigation	66.9%	50.6%	49.4%	48.9%
DS_Path_Tracing	56.7%	46.5%	41.4%	—

迷宫推理上，本模型比 GPT-5.4 高 16.3 个百分点，比 Claude 高 18 个百分点。论文坦诚指出：所有 frontier 模型在拓扑推理上均表现欠佳，多模态推理仍有巨大提升空间。

局限性

1. 需要触发词：目前模型不会自主判断何时该启用视觉原语，需要明确的 prompt 触发

2. 分辨率限制：极细粒度场景下，视觉原语位置偶尔不够精准（团队认为与高分辨率感知方案结合是自然下一步）

3. 泛化有限：点坐标解决复杂拓扑推理的跨场景泛化能力仍有限

与我们项目的关联

Jay 已经在使用 DeepSeek 模型（V4 系列），这篇论文基于 V4-Flash，技术上可以直接承接
7056× 的视觉压缩效率意味着 在低配 VPS 上跑多模态变成可能—— 这对于 Jay 的 4GB VPS 环境特别有意义
「先分家再合体」的训练策略 —— 即专家分工 + 策略蒸馏的思路 —— 可以借鉴到 GuppyLM 或其他小模型训练中
冷启动数据的设计哲学（坐标即思维单元）提示了一种更好的视觉-RL 训练方案

评分

维度	评分	说明
创新性	⭐⭐⭐⭐⭐	视觉原语作为推理单元，概念简洁但力量巨大
实用性	⭐⭐⭐⭐	拓扑推理提升显著，但计数增益相对较窄
论文质量	⭐⭐⭐⭐⭐	实验设计严谨，奖励机制细致，诚实指出局限
与我们相关	⭐⭐⭐⭐	V4-Flash 底层 + 低资源高效推理，直接可用
总体推荐	⭐⭐⭐⭐⭐	2026 年最值得读的多模态论文之一

报告完毕。详细技术细节请参阅原论文 PDF。