从基础思考到智能体AI:一段技术之旅
由星弧发布, 请在X(推特)上关注我们:@Starc_institute
从基础思考到智能体AI:一段技术之旅
由星弧发布, 请在X(推特)上关注我们:@Starc_institute
人工智能的最新进展表明,多模态模型——能够同时处理文本和图像的系统——正变得越来越复杂。然而,一个根本性的问题依然存在:这些模型能否真正用图像"思考",还是仅仅在描述它们所看到的东西?
本文探讨了2025年末发表的六篇开创性研究论文,它们共同回答了这个问题。这些论文代表了从简单图像理解到真正视觉推理的范式转变,在这种转变中,模型主动与图像交互、生成视觉内容,并使用多种工具解决复杂问题。
标题:GRIT: Teaching MLLMs to Think with Images
作者:Yue Fan, Xuehai He, et al.
传统的多模态模型主要将图像作为输入,仅生成文本响应。这引发了一个关键问题:这些模型是真正在进行视觉推理,还是仅仅在用语言描述图像?
GRIT引入了基础推理(grounded reasoning),即模型的思考过程通过显式边界框锚定在视觉证据上。模型不再进行纯文本推理,而是:
GRIT不采用人工标注,而是使用GPT-4V生成训练数据,方法是:
GRIT仅用2万个基础推理示例就实现了强大的性能,证明了有针对性的高质量数据比海量数据集更有效。
在空间推理基准测试中,GRIT增强的模型显示出显著改进:
GRIT确立了多模态推理应基于视觉证据,而不仅仅是文本描述。这一原则成为该领域所有后续工作的基础。
标题:Video models are zero-shot learners and reasoners
作者:Thaddäus Wiedemer, Yuxuan Li, Paul Vicol, et al. (Google DeepMind)
本文提出了一个激进的想法:视频生成模型(如Veo 3)可以作为零样本视觉推理器,无需任何特定任务的训练。
不生成文本描述,而是使用模型生成视频序列的能力来展示理解。这允许在四个能力维度上进行评估:
不是用文本回答"汽车是什么颜色?",而是模型生成一段视频,通过视觉变换展示汽车的颜色。
给定初始帧,模型生成合理的延续,展示对物理学和动力学的理解。
对于需要推理的问题(例如"物体会向哪个方向倒下?"),模型生成展示结果的视频序列。
仅在生成任务上训练的视频模型自然获得了推理能力。这表明视频生成是比静态图像分析更通用的视觉理解形式。
标题:ThinkMorph: Emergent Properties in Multimodal Interleaved Chain-of-Thought Reasoning
作者:Jiawei Gu, Yunzhuo Hao, Huichen Will Wang, et al.
在推理过程中应该如何结合文本和图像?图像应该仅仅说明文本推理,还是应该提供独特的、互补的信息?
ThinkMorph确立了有效的多模态推理需要:
ThinkMorph引入了创建高质量训练数据的系统方法:
人工设计的提示 → GPT-4生成纯文本推理链
GPT-4V识别视觉推理有益的位置,并在战略点插入图像生成提示
DALL-E 3生成补充文本推理的图像
模型逐步训练,保留能提高性能的数据用于下一次迭代
在适当设计的交错数据上训练时,模型展现出:
ThinkMorph模型在以下方面表现出色:
标题:V-Thinker: Interactive Thinking with Images
作者:Runqi Qiao, Qiuna Tan, Minghan Yang, et al.
之前的方法将图像作为推理链的一部分生成,但无法与它们交互。V-Thinker通过端到端强化学习引入了完全交互式视觉思考。
V-Thinker使模型能够:
与监督学习不同,V-Thinker使用直接策略优化(DPO),其中:
监督学习可以教何时生成图像,但强化学习教如何有效使用它们。模型通过试错学习哪些视觉表示能导致正确推理。
V-Thinker使用精心设计的进度:
论文引入了VSTaR(通过强化学习进行视觉自我教学),评估:
标题:Thinking with Video: Video Generation as a Promising Multimodal Reasoning Paradigm
作者:Jingqi Tong, Yurong Mou, Hangcheng Li, et al. (复旦大学, OpenMOSS)
本文将之前的洞察综合为一个单一范式:视频生成是多模态推理的自然媒介。
正如思维链将文本推理分解为步骤,帧链将视觉推理分解为时间序列:
示例:"如果这个球沿着斜坡滚下会发生什么?"
示例:"求解:3x + 5 = 14"
视频生成提供了一个单一范式,能够自然地处理纯视觉推理和带有视觉辅助的文本推理。这消除了对特定任务架构的需求。
论文引入了涵盖以下内容的综合基准测试:
标题:DeepEyesV2: Toward Agentic Multimodal Model
作者:Jack Hong, Chenxiao Zhao, ChengLin Zhu, et al. (小红书)
DeepEyesV2代表了这一研究轨迹的高潮:一个在其推理过程中自主集成多种工具的系统。
与使用预定义推理模式的先前系统不同,DeepEyesV2:
如何训练模型有效使用多种工具,而不提供每种可能组合的详尽示例?
论文揭示了对于多工具系统,直接强化学习会失败。模型必须首先通过监督微调(SFT)学习基本工具使用,然后强化学习才能改进行为。
为什么?没有初始指导,强化学习会随机探索,永远无法发现有效的工具使用模式。动作空间太大,有意义的奖励太稀疏。
强化学习使训练数据中不存在的自发行为成为可能,例如:
模型学会基于问题上下文选择性地调用工具,反映自主的智能体推理。
DeepEyesV2证明了真正的智能体行为——自主工具选择、复杂组合和自适应推理——可以从适当设计的训练中涌现,该训练结合了监督冷启动和强化学习。
论文引入了MA-Eval(多工具智能体评估),测量:
基础:基础推理(GRIT)
GRIT确立了推理应通过显式边界框基于视觉证据的基本原则,证明这可以用最少的数据高效学习。
→ 扩展:从图像到视频(Veo 3)
视频模型论文证明,视频生成通过添加时间动态自然扩展了基础推理,展示了跨感知、建模、操作和推理的零样本能力。
→ 完善:互补模态(ThinkMorph)
ThinkMorph阐明文本和图像应该是互补的(而非冗余的),引入系统化的数据演化,并识别交错推理的涌现特性。
→ 交互:端到端学习(V-Thinker)
V-Thinker通过端到端强化学习实现完全交互式思考,引入渐进式训练课程,并创建专门的评估基准。
→ 统一:视频作为范式(用视频思考)
将视频生成确立为统一框架,自然处理视觉中心和文本中心推理,展示帧链与思维链的并行性。
→ 集成:智能体能力(DeepEyesV2)
DeepEyesV2在推理循环中集成多种工具(代码执行+网络搜索),揭示冷启动训练的必要性,并展示涌现的智能体行为。
推荐流程:
所有论文都展示了用相对较小的数据集(2-4万样本)取得成功,强调:
设计多模态系统时,确保文本和视觉推理提供不同的、互补的信息,而不是在不同模态中描述相同内容。
测量单一能力的传统基准是不够的。新系统需要:
这篇技术博客总结了关于多模态推理的研究论文。该博客由星弧发布。要获取最新的研究讨论,请在X(推特)上关注我们:@Starc_institute
所有参考文献、图表和技术细节均直接引用自所引用的论文。有关完整的技术规格、实验细节和其他结果,请参阅原始论文。
星弧
最后更新:2025年11月