DeepMind团队提出“帧链”理论, 揭示Veo 3的通用智能潜力
- 2025-09-29 20:41:38
- 518
GoogleDeepMind近日发表了一篇论文,详细介绍了其生成式视频模型Veo3所展现出的“零样本”学习与推理能力,并提出了一个与大型语言模型中的“思维链”相对应的核心概念——“帧链”(CoF,Chain-of-Frames)。研究团队通过对超过18,000个生成视频的分析,系统地展示了Veo3在未经过任何特定任务微调的情况下,解决从基础感知到复杂视觉推理等一系列问题的潜力。这篇题为《视频模型是零样本学习者和推理者》(Videomodelsarezero-shotlearnersandreasoners)的论文,明确提出了一个论点:正如LLM(LargeLanguageModel,大型语言模型)统一了自然语言处理领域,生成式视频模型正走在成为机器视觉领域通用基础模型的道路上。
在过去几年中,自然语言处理(NLP,NaturalLanguageProcessing)领域经历了一场重大的变革,从为翻译、摘要、问答等每个任务构建专门的“定制模型”,转向了由一个统一的、可通过提示(prompting)解决多样化问题的LLM主导的时代。如今的机器视觉领域,在某种程度上正在复现NLP变革前的状态:我们拥有在特定任务上表现卓越的模型,例如用于物体检测的YOLO系列或用于图像分割的SegmentAnything,但缺少一个仅通过指令就能解决开放式视觉问题的通用模型。DeepMind的研究人员认为,促使LLM能力涌现的核心要素——即在网络规模的数据集上训练大型生成模型——同样适用于当代的视频模型。Veo3的实验结果,正是为了验证这一判断。
此项研究的亮点在于,它借鉴了大型语言模型中广为人知的“思维链”(CoT,Chain-of-Thought),并创造性地提出了一个视觉领域的平行概念——“帧链”(CoF,Chain-of-Frames)。思维链通过将复杂问题分解为一系列中间推理步骤,并以文本形式逐步生成,极大地增强了语言模型的逻辑推理能力。
DeepMind指出,视频生成在本质上是一个逐帧应用变化的过程,这种时空上的序列生成,恰好为视觉问题提供了一种内在的、循序渐进的解决方案,这便是“帧链”。语言模型操纵的是人类发明的符号,而视频模型则直接在时间和空间这两个物理维度上应用改变。因此,帧链推理使得视频模型有潜力通过一步步生成画面,来解决需要多步规划和动态理解的复杂视觉任务。
为系统地评估Veo3的能力,研究团队构建了一个涵盖四个层级的能力框架:感知(Perception)、建模(Modeling)、操控(Manipulation)和推理(Reasoning)。在最基础的感知层面,Veo3展示了在没有经过显式训练的情况下,完成一系列经典计算机视觉任务的能力,包括图像分割、边缘检测、关键点定位、超分辨率、盲去模糊和去噪。这些“涌现”出的能力,意味着视频模型未来可能取代目前许多需要专门训练的视觉工具模型。
在感知之上是建模能力,即理解世界运行的基本规律,尤其是直觉物理。Veo3能够对刚体和柔体的动态、表面交互进行建模,并表现出对浮力、空气阻力、折射与反射等物理现象的理解。在一个模拟“视觉叠叠乐”(VisualJenga)的任务中,模型能够以物理上合理的方式移除场景中的物体。它还能理解物体功能,例如判断哪些物品可以被放进背包。此外,模型还能在时间和镜头移动中保持对世界状态的记忆,这构成了其进行更复杂操作的基础。
在此之上,便是模型的操控能力。Veo3能够执行多样的零样本图像编辑任务,如背景移除、风格迁移、图像上色和修复。它还能根据涂鸦指令编辑图像,将不同物体合成为一个协调的场景,或将一张自拍肖像转化为专业的商务头像。这种对场景进行合理修改的能力,使其可以想象复杂的交互,模拟灵巧的物体操控,例如演示如何卷一个墨西哥卷饼,或让机器人手臂像人类一样自然地拿起锤子。
这一系列能力的集成,最终赋予了模型进行视觉推理的能力。这正是“帧链”机制发挥关键作用的领域。在迷宫求解任务中,Veo3通过逐帧生成红色方块在白色路径上的移动,最终停在绿色终点,从而完成任务。其在5x5网格迷宫上的成功率(pass@10)达到了78%,远高于其前代模型Veo2的14%。
研究还将其与最近大热的图像模型NanoBanana和语言模型Gemini2.5Pro进行了比较。结果显示,静态的图像模型难以解决需要过程的迷宫任务,而语言模型虽然在处理ASCII文本迷宫时表现优异,但在直接理解图像输入时则面临困难。这也凸显出视频模型通过“帧链”进行逐步视觉推理的独特优势。除了迷宫,Veo3还能完成视觉序列补全、连接匹配颜色、解决简单的数独谜题和视觉对称性补全等任务。
不过,团队表示,目前Veo3在许多任务上的表现仍不及最先进的专用模型,这与LLM发展的早期阶段(如GPT-3与精调模型的对比)非常类似。
此外,生成视频的计算成本依然相当高昂。但论文援引历史数据指出,LLM的推理成本正以每年9到900倍的速度下降,早期被认为“部署成本过高”的通用模型,最终凭借其通用性和成本的快速下降取代了多数专用模型。如果NLP的发展轨迹可作为参考,同样的趋势也将在视觉领域上演。
- 上一篇:国际顶尖肺癌专家已患肺癌三年
- 下一篇:沈佳润出场小沈阳被抬走