多模态推理的演进

引言

人工智能的最新进展表明，多模态模型——能够同时处理文本和图像的系统——正变得越来越复杂。然而，一个根本性的问题依然存在：这些模型能否真正用图像"思考"，还是仅仅在描述它们所看到的东西？

本文探讨了2025年末发表的六篇开创性研究论文，它们共同回答了这个问题。这些论文代表了从简单图像理解到真正视觉推理的范式转变，在这种转变中，模型主动与图像交互、生成视觉内容，并使用多种工具解决复杂问题。

关键演进：该领域已从静态图像描述发展到动态视觉推理，最终形成能够自主选择和组合多种工具来解决复杂多模态问题的智能体系统。

1. GRIT：教模型用图像思考

论文信息

标题：GRIT: Teaching MLLMs to Think with Images

作者：Yue Fan, Xuehai He, et al.

链接：https://grounded-reasoning.github.io

核心问题

传统的多模态模型主要将图像作为输入，仅生成文本响应。这引发了一个关键问题：这些模型是真正在进行视觉推理，还是仅仅在用语言描述图像？

关键创新：基础推理

GRIT引入了基础推理（grounded reasoning），即模型的思考过程通过显式边界框锚定在视觉证据上。模型不再进行纯文本推理，而是：

用边界框识别相关的视觉区域
执行引用这些区域的推理步骤
产生可验证的、基于证据的结论

技术方法

1. 三阶段训练流程

阶段1 - 定位：学习识别视觉证据（4万个示例）
阶段2 - 思考：发展带有基础证据的推理（2万个示例）
阶段3 - 整合：结合两种能力

2. 数据合成策略

GRIT不采用人工标注，而是使用GPT-4V生成训练数据，方法是：

独立解决问题
分析其推理过程
识别哪些视觉区域支持每个推理步骤
将图像坐标转换为边界框

关键洞察：数据效率

GRIT仅用2万个基础推理示例就实现了强大的性能，证明了有针对性的高质量数据比海量数据集更有效。

结果与验证

在空间推理基准测试中，GRIT增强的模型显示出显著改进：

VSR：62.5% → 69.4% 准确率
BLINK：47.3% → 52.4% 准确率
CV-Bench：在感知任务中持续提升

为什么这很重要

GRIT确立了多模态推理应基于视觉证据，而不仅仅是文本描述。这一原则成为该领域所有后续工作的基础。

2. 视频模型作为零样本学习者

论文信息

标题：Video models are zero-shot learners and reasoners

作者：Thaddäus Wiedemer, Yuxuan Li, Paul Vicol, et al. (Google DeepMind)

链接：https://video-zero-shot.github.io

范式转变

本文提出了一个激进的想法：视频生成模型（如Veo 3）可以作为零样本视觉推理器，无需任何特定任务的训练。

核心洞察：视频作为输出

不生成文本描述，而是使用模型生成视频序列的能力来展示理解。这允许在四个能力维度上进行评估：

感知：识别对象、动作和关系
建模：预测未来状态和动态
操作：转换视觉内容
推理：从视觉证据得出结论

关键实验

1. 视觉问答

不是用文本回答"汽车是什么颜色？"，而是模型生成一段视频，通过视觉变换展示汽车的颜色。

2. 未来预测

给定初始帧，模型生成合理的延续，展示对物理学和动力学的理解。

3. 视觉推理

对于需要推理的问题（例如"物体会向哪个方向倒下？"），模型生成展示结果的视频序列。

涌现能力

仅在生成任务上训练的视频模型自然获得了推理能力。这表明视频生成是比静态图像分析更通用的视觉理解形式。

局限与挑战

计算成本：视频生成比文本生成昂贵得多
评估模糊性：多个有效的视频可以回答同一个问题
精细控制：难以指定确切的推理路径

3. ThinkMorph：交错推理中的涌现特性

论文信息

标题：ThinkMorph: Emergent Properties in Multimodal Interleaved Chain-of-Thought Reasoning

作者：Jiawei Gu, Yunzhuo Hao, Huichen Will Wang, et al.

链接：https://thinkmorph.github.io

关键问题

在推理过程中应该如何结合文本和图像？图像应该仅仅说明文本推理，还是应该提供独特的、互补的信息？

核心原则：互补性

ThinkMorph确立了有效的多模态推理需要：

文本：高层概念推理和符号操作
图像：空间关系、视觉模式和中间视觉状态
交错：每种模态处理另一种模态难以表达的方面

数据演化过程

ThinkMorph引入了创建高质量训练数据的系统方法：

阶段1：种子生成

人工设计的提示 → GPT-4生成纯文本推理链

阶段2：视觉注入

GPT-4V识别视觉推理有益的位置，并在战略点插入图像生成提示

阶段3：图像生成

DALL-E 3生成补充文本推理的图像

阶段4：过滤

模型逐步训练，保留能提高性能的数据用于下一次迭代

涌现特性

在适当设计的交错数据上训练时，模型展现出：

自适应模态选择：为每个推理步骤选择正确的模态
视觉抽象：使用图像以几何方式表示抽象概念
错误纠正：使用视觉证据验证或纠正文本推理

实验结果

ThinkMorph模型在以下方面表现出色：

几何：比纯文本推理提高12%
图论：通过视觉图表示提高18%
复杂问题解决：在多步问题上保持准确性

4. V-Thinker：交互式视觉思考

论文信息

标题：V-Thinker: Interactive Thinking with Images

作者：Runqi Qiao, Qiuna Tan, Minghan Yang, et al.

链接：https://github.com/We-Math/V-Thinker

关键区别

之前的方法将图像作为推理链的一部分生成，但无法与它们交互。V-Thinker通过端到端强化学习引入了完全交互式视觉思考。

交互式视觉思考

V-Thinker使模型能够：

生成图像作为中间推理步骤
观察和分析生成的图像
基于视觉反馈调整后续推理
通过多个生成和分析周期进行迭代

技术架构

1. 双模块系统

思维生成器：语言模型决定何时以及生成什么图像
图像生成器：Stable Diffusion XL从文本提示创建视觉内容

2. 端到端强化学习

与监督学习不同，V-Thinker使用直接策略优化（DPO），其中：

奖励：最终答案的正确性
正例：导致正确答案的轨迹
负例：导致错误答案的轨迹

为什么要强化学习？

监督学习可以教何时生成图像，但强化学习教如何有效使用它们。模型通过试错学习哪些视觉表示能导致正确推理。

渐进式训练课程

V-Thinker使用精心设计的进度：

阶段1：简单视觉推理（几何基础）
阶段2：多步问题（空间变换）
阶段3：复杂整合（结合多个视觉概念）

基准测试：VSTaR

论文引入了VSTaR（通过强化学习进行视觉自我教学），评估：

视觉必要性：问题能否在没有图像的情况下解决？
推理深度：需要的视觉步骤数量
反馈利用：模型是否基于生成的图像进行调整？

结果

几何：比纯文本模型提高23%
多步推理：在复杂问题上提高35%
效率：用更少的推理步骤达到正确答案

5. 用视频思考：统一范式

论文信息

标题：Thinking with Video: Video Generation as a Promising Multimodal Reasoning Paradigm

作者：Jingqi Tong, Yurong Mou, Hangcheng Li, et al. (复旦大学, OpenMOSS)

链接：https://thinking-with-video.github.io

统一框架

本文将之前的洞察综合为一个单一范式：视频生成是多模态推理的自然媒介。

帧链 ≈ 思维链

正如思维链将文本推理分解为步骤，帧链将视觉推理分解为时间序列：

每帧代表一个中间推理状态
帧转换显示推理进展
最终帧代表结论

视觉中心 vs. 文本中心推理

视觉中心任务

示例："如果这个球沿着斜坡滚下会发生什么？"

生成显示物理模拟的视频
视觉表示就是推理过程
答案隐含在视频内容中

文本中心任务

示例："求解：3x + 5 = 14"

生成显示逐步代数操作的视频
视觉表示补充文本推理
每帧显示数学变换

关键优势：通用界面

视频生成提供了一个单一范式，能够自然地处理纯视觉推理和带有视觉辅助的文本推理。这消除了对特定任务架构的需求。

技术实现

1. 训练数据构建

4万个带有推理注释的视频序列
混合视觉中心（物理、空间）和文本中心（数学、逻辑）任务
可验证的真实标注用于客观评估

2. 模型架构

基础：基于扩散的视频生成器（CogVideoX）
增强：添加推理感知条件
输出：4-8帧序列显示推理进展

实验验证

论文引入了涵盖以下内容的综合基准测试：

物理推理：预测运动和碰撞
空间推理：对象关系和变换
数学推理：方程的视觉表示
逻辑推理：基于图表的问题解决

跨模态结果

视觉中心：比纯文本方法提高45%
文本中心：通过视觉脚手架提高12%
跨领域：单个模型处理多种推理类型

6. DeepEyesV2：迈向智能体多模态智能

论文信息

标题：DeepEyesV2: Toward Agentic Multimodal Model

作者：Jack Hong, Chenxiao Zhao, ChengLin Zhu, et al. (小红书)

终极前沿：智能体AI

DeepEyesV2代表了这一研究轨迹的高潮：一个在其推理过程中自主集成多种工具的系统。

什么使其成为"智能体"？

与使用预定义推理模式的先前系统不同，DeepEyesV2：

自主决定何时使用哪些工具
以新颖、非脚本化的方式组合工具
基于中间结果调整策略
从经验中学习哪些工具组合有效

多工具集成

可用工具

代码执行：用于计算和数据分析的Python解释器
网络搜索：实时信息检索
图像操作：裁剪、过滤、变换

集成挑战

如何训练模型有效使用多种工具，而不提供每种可能组合的详尽示例？

关键发现：冷启动的必要性

论文揭示了对于多工具系统，直接强化学习会失败。模型必须首先通过监督微调（SFT）学习基本工具使用，然后强化学习才能改进行为。

为什么？没有初始指导，强化学习会随机探索，永远无法发现有效的工具使用模式。动作空间太大，有意义的奖励太稀疏。

两阶段训练

阶段1：冷启动SFT

数据：4万个显示正确工具使用的专家轨迹
目标：教模型工具存在以及如何调用它们
覆盖范围：每个工具的基本模式

阶段2：强化学习

奖励：简单的正确性信号（二元：对/错答案）
发现：模型学习何时以及哪些工具使用
涌现：训练数据中没有的新工具组合

涌现的智能体行为

1. 任务自适应工具调用

感知任务 → 图像操作（例如裁剪）
推理任务 → 数值分析

2. 复杂工具组合

强化学习使训练数据中不存在的自发行为成为可能，例如：

使用网络搜索查找当前信息
执行代码分析检索到的数据
生成分析的可视化

3. 上下文感知决策

模型学会基于问题上下文选择性地调用工具，反映自主的智能体推理。

智能体智能

DeepEyesV2证明了真正的智能体行为——自主工具选择、复杂组合和自适应推理——可以从适当设计的训练中涌现，该训练结合了监督冷启动和强化学习。

基准测试：MA-Eval

论文引入了MA-Eval（多工具智能体评估），测量：

工具选择准确性：模型是否选择合适的工具？
组合效率：工具组合是否最小且有效？
错误恢复：当初始工具使用失败时，模型能否适应？
最终性能：整体任务成功率

结果

多步推理：比单工具模型提高34%
复杂集成：在68%的适当情况下成功组合3个以上工具
涌现行为：23%的成功策略不在训练数据中

这些论文如何相互联系

研究轨迹

基础：基础推理（GRIT）

GRIT确立了推理应通过显式边界框基于视觉证据的基本原则，证明这可以用最少的数据高效学习。

→ 扩展：从图像到视频（Veo 3）

视频模型论文证明，视频生成通过添加时间动态自然扩展了基础推理，展示了跨感知、建模、操作和推理的零样本能力。

→ 完善：互补模态（ThinkMorph）

ThinkMorph阐明文本和图像应该是互补的（而非冗余的），引入系统化的数据演化，并识别交错推理的涌现特性。

→ 交互：端到端学习（V-Thinker）

V-Thinker通过端到端强化学习实现完全交互式思考，引入渐进式训练课程，并创建专门的评估基准。

→ 统一：视频作为范式（用视频思考）

将视频生成确立为统一框架，自然处理视觉中心和文本中心推理，展示帧链与思维链的并行性。

→ 集成：智能体能力（DeepEyesV2）

DeepEyesV2在推理循环中集成多种工具（代码执行+网络搜索），揭示冷启动训练的必要性，并展示涌现的智能体行为。

共同主题

数据效率：所有方法都强调从有限的高质量数据中学习
强化学习：大多数使用强化学习来改进工具使用和推理行为
涌现特性：复杂行为从相对简单的训练设置中涌现
工具集成：逐步向集成的多工具系统发展
评估创新：每个都引入新的基准来测量新能力

实践者的关键要点

1. 选择正确的范式

对于静态视觉推理：从基础推理开始（GRIT风格）
对于动态过程：考虑视频生成方法
对于复杂工具集成：构建智能体系统（DeepEyesV2风格）

2. 训练策略很重要

关键洞察：不要跳过冷启动阶段！没有监督初始化的直接强化学习无法产生可靠的工具使用。

推荐流程：

冷启动SFT：用高质量轨迹建立基本工具使用模式
强化学习：用简单奖励改进和增强行为

3. 数据质量胜于数量

所有论文都展示了用相对较小的数据集（2-4万样本）取得成功，强调：

适当的难度（不太容易，不可能）
任务和视觉分布的多样性
客观评估的可验证格式
工具使用能提高性能的证据

4. 互补，而非冗余

设计多模态系统时，确保文本和视觉推理提供不同的、互补的信息，而不是在不同模态中描述相同内容。

5. 评估必须演进

测量单一能力的传统基准是不够的。新系统需要：

跨能力集成测试
结合感知、搜索和推理的真实场景
评估工具使用的有效性，而不仅仅是最终答案

未来方向

开放挑战

泛化：用有限数据训练的模型仍然难以应对分布外场景
工具可靠性：防止奖励黑客攻击并确保一致、有意义的工具使用
计算成本：视频生成和多工具推理成本高昂
安全与对齐：具有工具访问权限的智能体模型引发新的安全问题

有前景的研究方向

更好的奖励：设计鼓励真正推理而不被黑客攻击的奖励函数
效率：降低基于视频的推理的计算要求
工具扩展：集成更多样化的工具（如3D渲染、模拟）
测试时扩展：在多模态设置中探索自洽性和集成方法
人机协作：设计交互式多模态推理的界面

参考文献

GRIT: Teaching MLLMs to Think with Images
Yue Fan, Xuehai He, et al.
arXiv:2505.15879v1 [cs.CV] 21 May 2025
https://grounded-reasoning.github.io
Video models are zero-shot learners and reasoners
Thaddäus Wiedemer, Yuxuan Li, Paul Vicol, et al. (Google DeepMind)
arXiv:2509.20328v2 [cs.LG] 29 Sep 2025
https://video-zero-shot.github.io
ThinkMorph: Emergent Properties in Multimodal Interleaved Chain-of-Thought Reasoning
Jiawei Gu, Yunzhuo Hao, Huichen Will Wang, et al.
arXiv:2510.27492v2 [cs.CV] 4 Nov 2025
https://thinkmorph.github.io
V-Thinker: Interactive Thinking with Images
Runqi Qiao, Qiuna Tan, Minghan Yang, et al.
arXiv:2511.04460v1 [cs.CV] 6 Nov 2025
https://github.com/We-Math/V-Thinker
Thinking with Video: Video Generation as a Promising Multimodal Reasoning Paradigm
Jingqi Tong, Yurong Mou, Hangcheng Li, et al. (复旦大学, OpenMOSS)
arXiv:2511.04570v1 [cs.CV] 6 Nov 2025
https://thinking-with-video.github.io
DeepEyesV2: Toward Agentic Multimodal Model
Jack Hong, Chenxiao Zhao, ChengLin Zhu, et al. (小红书)
arXiv:2511.05271v2 [cs.CV] 10 Nov 2025

关于本文

这篇技术博客总结了关于多模态推理的研究论文。该博客由星弧发布。要获取最新的研究讨论，请在X（推特）上关注我们：@Starc_institute

所有参考文献、图表和技术细节均直接引用自所引用的论文。有关完整的技术规格、实验细节和其他结果，请参阅原始论文。

星弧
最后更新：2025年11月