Thinking with Visual Primitives — DeepSeek 多模态推理新范式
- 来源: GitHub Repo | 技术报告 PDF
- 发布日期: 2026-04-30
- 作者: DeepSeek × 北京大学 × 清华大学
- 报告日期: 2026-04-30
一句话版本
DeepSeek 发了一篇论文,教会了 AI 在思考时「用手指点着图片说」,而不是模糊地描述「左边那个大的」—— 让 AI 直接在思维链里嵌入坐标和边框,在数人头、走迷宫这些任务上碾压了 GPT-5.4 和 Claude Sonnet 4.6。
核心问题:Reference Gap(指代鸿沟)
现有的多模态大模型能「看见」,但不一定能「想清楚」。论文一开头就扎了所有 frontier 模型的心:
- GPT-5.4 看到密集人群照,数不清楚有多少人
- Claude Sonnet 4.6 看到复杂电路图,说不清左边电容和右边电感的位置关系
这不是模型看不清图的问题,是模型在 思考时根本抓不住它想谈的视觉对象。
现有模型用自然语言构建 Chain-of-Thought,但自然语言天生模糊:「左边那个大的」、「靠近中央的红色物体」—— 在密集场景里根本无法精确定位。注意力在推理过程中逐渐 漂移,越说越乱。
学术界此前的思路是让模型「看得更清楚」(高分辨率切割、动态分块),但这解决的是 Perception Gap。DeepSeek 指出:感知再强,也代替不了精确的指代能力。
核心创新
1. 坐标 = 思维单元
一句话概括:把点坐标和边界框变成推理的基本单位,像文字一样穿插在思维链里。
传统做法中,边界框是输出的「答案」:模型先想清楚,再告诉你「目标在坐标 [100,200,300,400]」。这是事后标注,不是思考工具。
DeepSeek 的做法完全不同。模型推理时,每当提到一个视觉对象就同步输出坐标:
> 「扫描图片找熊,找到一只 <|ref|>熊<|/ref|><|box|>[[452,23,804,411]]<|/box|>,它正在爬树,排除。再往左下看,找到另一只 <|ref|>熊<|/ref|><|box|>[[50,447,647,771]]<|/box|>,站在岩石边缘,符合条件。」
这就像人类数东西时会用手指逐一点过去。坐标不再是答案,而是 推理过程中消除歧义的锚点。逻辑链被钉在图片的物理坐标上,不会漂移。
两种视觉原语:
<|box|>:边界框,用于需要定位和尺寸信息的对象<|point|>:点坐标,用于抽象空间指代(迷宫轨迹、曲线追踪)
2. 7056 倍视觉压缩
| 阶段 | Token 数 | 压缩倍数 |
|---|---|---|
| 原始像素(756×756) | — | — |
| ViT 图像块 token | 2,916 | — |
| 3×3 空间压缩 | 324 | 9× |
| CSA 压缩 KV 缓存 | 81 | 4× |
| **整体压缩** | **81** | **7056×** |
一张 800×800 的图,DeepSeek 只需要 约 90 个 KV 缓存条目,对比:
- Claude Sonnet 4.6: ~870
- Gemini-3-Flash: ~1,100
论文论点:精确的空间指代能力可以弥补视觉 token 不足。模型不需要「看更多」,而需要「指更准」。
3. 冷启动数据设计
团队爬取了近 10 万个目标检测数据集,两轮筛选后保留约 3.17 万 高质量数据源,生成 超过 4000 万条 训练样本。
四类特殊任务:
| 任务类型 | 数量 | 描述 |
|---|---|---|
| 计数(粗/细粒度) | 大量 | 粗粒度:一次框出所有候选→数;细粒度:逐一扫描核对属性 |
| 空间推理 VQA | 大量 | GQA(自然场景)+ CLEVR(可控合成)多跳推理 |
| 迷宫导航 | 46 万条 | DFS/Prim/Kruskal 生成矩形/圆形/六边形迷宫,含无解迷宫 |
| 路径追踪 | 12.5 万条 | 多条贝塞尔曲线交叉,模型需追踪指定起点到终点 |
训练流程:「先分家,再合体」
FTwG (框专家) ── GRPO RL ──┐
├── Unified RFT ── On-Policy Distillation ── 统一模型 F
FTwP (点专家) ── GRPO RL ──┘
1. 两个专家模型:FTwG(边界框数据)和 FTwP(点坐标数据)分开训练,避免互相干扰
2. GRPO 强化学习:格式奖励(输出格式正确)+ 质量奖励(LLM 评判思考一致)+ 精度奖励(任务特定)三路并行
- 计数任务用平滑指数衰减奖励而非二值对错
- 迷宫任务分解为 5 个子奖励信号
3. Unified RFT:用两个专家的 rollout 数据统一强化微调
4. On-Policy Distillation:学生模型生成轨迹,最小化与专家分布的 KL 散度
实验结果
架构:DeepSeek V4-Flash 语言主干(284B 总参数 / 13B 激活 MoE)+ 自研 ViT
计数任务
| 基准 | 本模型 | GPT-5.4 | Gemini-3-Flash | Claude S4.6 | Qwen3-VL-235B |
|---|---|---|---|---|---|
| Pixmo-Count | **89.2%** | 76.6% | 88.2% | 68.7% | — |
| DS_Finegrained_Counting | **88.7%** | — | — | — | 87.2% |
空间推理
| 基准 | 本模型 | 排名 |
|---|---|---|
| MIHBench | **85.3%** | #1 |
| SpatialMQA | **69.4%** | #1 |
拓扑推理(差距最大)
| 基准 | 本模型 | GPT-5.4 | Gemini-3-Flash | Claude S4.6 |
|---|---|---|---|---|
| DS_Maze_Navigation | **66.9%** | 50.6% | 49.4% | 48.9% |
| DS_Path_Tracing | **56.7%** | 46.5% | 41.4% | — |
迷宫推理上,本模型比 GPT-5.4 高 16.3 个百分点,比 Claude 高 18 个百分点。论文坦诚指出:所有 frontier 模型在拓扑推理上均表现欠佳,多模态推理仍有巨大提升空间。
局限性
1. 需要触发词:目前模型不会自主判断何时该启用视觉原语,需要明确的 prompt 触发
2. 分辨率限制:极细粒度场景下,视觉原语位置偶尔不够精准(团队认为与高分辨率感知方案结合是自然下一步)
3. 泛化有限:点坐标解决复杂拓扑推理的跨场景泛化能力仍有限
与我们项目的关联
- Jay 已经在使用 DeepSeek 模型(V4 系列),这篇论文基于 V4-Flash,技术上可以直接承接
- 7056× 的视觉压缩效率意味着 在低配 VPS 上跑多模态变成可能—— 这对于 Jay 的 4GB VPS 环境特别有意义
- 「先分家再合体」的训练策略 —— 即专家分工 + 策略蒸馏的思路 —— 可以借鉴到 GuppyLM 或其他小模型训练中
- 冷启动数据的设计哲学(坐标即思维单元)提示了一种更好的视觉-RL 训练方案
评分
| 维度 | 评分 | 说明 |
|---|---|---|
| 创新性 | ⭐⭐⭐⭐⭐ | 视觉原语作为推理单元,概念简洁但力量巨大 |
| 实用性 | ⭐⭐⭐⭐ | 拓扑推理提升显著,但计数增益相对较窄 |
| 论文质量 | ⭐⭐⭐⭐⭐ | 实验设计严谨,奖励机制细致,诚实指出局限 |
| 与我们相关 | ⭐⭐⭐⭐ | V4-Flash 底层 + 低资源高效推理,直接可用 |
| 总体推荐 | ⭐⭐⭐⭐⭐ | 2026 年最值得读的多模态论文之一 |
报告完毕。详细技术细节请参阅原论文 PDF。