Skip to main content

CoF – DeepMind推出的视觉模型思维链

Posted in AI工具, AI项目和框架.

CoF是什么

CoF（Chain-of-Frames，帧链）是DeepMind推出的新概念，类比于语言模型中的“链式思维”（Chain-of-Thought，CoT）。CoF使视频模型能在时间和空间上进行推理，通过逐帧生成视频解决复杂的视觉任务。例如，Veo 3模型用CoF解决迷宫问题、完成对称性任务或进行简单的视觉类比推理，能力类似于语言模型通过符号推理解决问题，CoF是通过生成连贯的视频帧实现视觉推理，展示了视频模型在通用视觉理解方面的潜力。

CoF的主要功能

视觉推理：通过逐帧生成视频，CoF能逐步解决问题，例如在迷宫中找到路径、完成对称性任务或进行视觉类比推理。
跨时空操作：对视频中的对象进行操作，例如移动、变形或改变对象的属性，同时保持视频的连贯性。
通用视觉理解：CoF帮助视频模型理解物理规则、抽象关系及视觉世界的动态变化，实现通用视觉任务的零样本学习。
生成连贯视频：CoF确保生成的视频在时间和空间上是连贯的，使模型能生成符合逻辑和物理规则的视频内容。

CoF的技术原理

生成模型：CoF依赖大规模的生成模型，模型通过海量数据进行训练，学习视频的时空结构和动态变化。
提示驱动：通过自然语言提示（prompt）和初始图像，模型被引导生成符合任务要求的视频。提示帮助模型理解任务目标，初始图像提供视频的第一帧。
逐帧推理：模型逐帧生成视频，每一步都基于前一帧的状态和提示进行推理。逐帧生成的方式类似于语言模型中的链式思维（CoT）。
物理和逻辑约束：CoF生成的视频需要符合物理规则和逻辑一致性。例如，物体的运动需要符合物理定律，视频中的对象不能违反现实世界的约束。
优化和反馈：通过多次尝试和优化，模型能生成更准确的视频。例如，通过多次生成、选择最优结果，提高任务的成功率。

CoF的项目地址

技术论文：https://papers-pdfs.assets.alphaxiv.org/2509.20328v1.pdf

CoF的应用场景

迷宫求解：CoF能生成视频，展示一个物体如何在迷宫中找到从起点到终点的路径，逐帧规划最优路线。
视觉对称性任务：CoF能生成对称的图案或图像，通过逐帧填充空白部分，完成对称图形的绘制。
物理模拟：模拟物理现象，如物体的运动、碰撞和浮力等，生成符合物理规律的视频。
图像编辑：用在图像编辑任务，例如背景移除、风格转换、颜色化等，通过逐帧生成视频逐步完成编辑。
视觉类比：解决视觉类比问题，例如生成缺失的部分完成一个视觉类比，通过逐帧推理找到正确的解决方案。