admin管理员组

文章数量:1030016

Cosmos

物理AI系统需要在物理世界中感知、理解和执行复杂的动作。本文介绍了Cosmos-Reason1模型,该模型能够通过长期推理过程理解物理世界,并以自然语言生成适当的具身决策(例如,下一步行动)。

作者首先定义了物理AI推理的关键能力,重点关注物理常识和具身推理。为了表示物理常识,作者使用了一个层次化的本体,它捕捉了关于空间、时间和物理学的基本知识。对于具身推理,作者依赖于一个二维本体,它可以泛化到不同的物理具身形式。

基于这些能力,作者开发了两个多模态大语言模型:Cosmos-Reason1-8B和Cosmos-Reason1-56B。

作者在四个阶段收集数据并训练作者的模型:视觉预训练、通用监督微调(SFT)、物理AI微调以及物理AI强化学习(RL)作为后期训练。为了评估作者的模型,作者根据作者的本体构建了全面的基准测试框架,用于物理常识和具身推理。

评估结果显示,物理AI微调和强化学习带来了显著的改进。

为了促进物理AI的发展,作者将按照NVIDIA开源模型许可协议,在。

1. Introduction

物理AI系统设计用于与物理世界交互。为了有效地遵循指令并采取适当行动以实现预期目标,它们首先需要感知、理解和推理物理世界。近年来,通过长链思考(CoT)过程实现的训练后和测试时扩展取得了突破,大语言模型(LLMs)在跨领域如编程和数学等复杂问题上展现了显著的一般推理能力。然而,这些模型的关键局限性在于其将知识扎根于物理世界的能力。尽管通过互联网上大量文本数据训练的LLMs能够获取有关物理世界的必要知识进行推理,但它们往往难以建立该知识与实际世界交互和动态之间的联系。

在本文中,作者首先定义了物理AI系统所必需的基本能力。与专注于解决编程和数学问题的模型设计不同,作者的重点在于赋予模型物理常识知识以及基于现实世界的本体化的推理能力。为了建立一个共享框架并帮助衡量进展,作者提出了两种本体。首先,一种层级结构的本体,将物理常识划分为三大类别——空间、时间及基本物理学——并进一步细分为16个子类别。这种本体涵盖了物理世界在物理法则下运作的知识及其对与实体智能体交互的响应机制。其次,作者引入了一种二维的本体框架,涵盖四大关键推理能力,并适用于五种类型的实体智能体。基于物理常识的有效实体推理对于理解和规划在实现特定目标时所需的实际行动至关重要。详细内容请参见第2节。

作者引入了Cosmos-Reason1,作为使多模态大语言模型生成更具物理基础的响应的一个步骤。作者关注的是视觉领域,在这个领域中,世界观察被表示为视频。Cosmos-Reason1通过视频输入感知物理世界,理解它,并通过长链条的思考过程进行推理,之后再生成响应。这些响应以自然语言表达,包括解释性的见解和具体的行动决策,例如确定接下来要采取的动作。作者采用了一种纯解码器的多模态大语言模型架构,其中输入视频首先由视觉编码器处理,然后再由投影层调整与文本 Token Embedding 的对齐,之后输入到大语言模型。作者采用了可扩展且混合的Mamba-MLP-Transformer架构作为大语言模型的基础结构。Cosmos-Reason1有两种模型规模:Cosmos-Reason1-8B和Cosmos-Reason1-56B。作者在第3节详细描述了模型架构的细节。

数据决定了作者模型的能力上限。为了获得广泛的应用能力,作者在通用视觉领域收集了大规模和多样化的数据,用于视觉预训练的数据总共包括1.2亿张图像、视频以及混合数据,用于通用监督微调的数据则包括800万张图像和视频。为了增强作者的模型在物理常识和具身推理方面的能力,作者进一步设计了两条数据流水线,根据作者的本体论来收集相应的物理常识和具身推理数据。这些数据基于人类标注和来自DeepSeek-R1(DeepSeek-AI, 2025)的知识蒸馏进行筛选,用于物理AI的监督微调。关于数据的具体细节将在第4节中讨论。

在大规模构建基于规则且可验证的奖励机制对于使大语言模型在解决数学和编程问题上的推理能力取得成功至关重要。作者能否为基于强化学习训练物理AI推理模型设计出基于规则且可验证的奖励机制?在本工作中,作者探索了两种基于多项选择题(MCQ)设计的奖励类型。第一种MCQ的设计依据是人类注解。受到视频自我监督学习的启发,作者根据视频数据本身的结构自动生成第二种类型的MCQ,例如通过打乱时空视频片段来解决谜题,或者预测视频播放方向(正向或反向)。所有这些奖励都是基于规则的、可验证的,并且与物理AI的能力高度相关。作者在第4.4节详细讨论了RL训练数据和奖励的设计细节。

为了评估作者的模型,在第5节中作者构建了新的基准来评估Physical Al的能力。

在第5.1节中,关于物理常识部分,作者构建了三个基准数据集(空间、时间及基本物理学),包含来自426个视频的604个问题。在第5.2节中,关于实体推理部分,作者构建了六个基准数据集,包含来自600个视频的612个问题,覆盖了不同物理实体的各种任务范围,包括人类、机器人手臂、类人机器人以及自动驾驶车辆。

第6章介绍了Cosmos-Reasonl的评估结果及其与现有模型的比较。在第6.1节中,作者介绍了实验设置,包括视觉预训练、通用SFT和Physical AI SFT的训练细节,以及SFT模型在作者基准上的评估结果。在第6.2节中,作者介绍了强化学习的算法和基础设施以及相关的评估结果。使用作者基于规则、可验证的奖励进行RL后训练,所有基准都得到了改进。

图1展示了Cosmos-Reason1的整体框架。简而言之,作者介绍了两个多模态大语言模型,即Cosmos-Reason1-8B和Cosmos-Reason1-56B。这些模型在四个阶段进行训练:视觉预训练、通用细调(SFT)、物理AI细调和物理AI强化学习(RL)。作者定义了物理常识和体态推理的本体论。此外,作者还构建了基准测试以评估模型的物理AI推理能力。为了帮助物理AI开发者推进其系统的发展,作者将根据NVIDIA开源模型许可协议在。构建用于物理AI的推理模型仍然是一个未解难题,离完全解决还有很大的距离,作者希望本文对这一领域的进展有所贡献。

2. Physical AI Reasoning

作者识别出Physical AI推理模型的两种重要能力——物理常识推理和具身推理。首先,Physical AI模型应具备物理常识,即对环境的一种普遍理解,这种理解不依赖具体的具身体验,并构成了在现实世界中预测合理与不合理事件的基础。其次,Physical AI模型还应帮助具身体征智能体感知、推理并就未来与物理环境交互做出决策。作者旨在将“System ”和“System ”融入到物理常识推理和具身推理中。“System ”能够快速生成直观响应,如模式识别和本能判断,而“System ”则更倾向于缓慢的、有目的的推理,用于复杂决策制定(Kahneman, 2011)。

2.1. Common Sense Reasoning

人类主要通过被动观察世界来获取物理常识。例如,婴儿在出生几个月后就能理解基本概念,如物体持久性与重力(Riochet et al., 2021)。这些常识包含了关于现实世界中可能、不可能或可能发生的事情的知识集合。在实际环境中训练AI系统成本高昂,并且可能对系统及其环境构成风险。利用物理常识,AI系统能够快速学习新技能,同时在不确定性较高的场景下避免犯下关键性的错误(LeCun, 2022)。

为了定义物理常识,作者引入了一个包含三大类别及其细分类别的本体论:空间、时间和其他基础物理学,进一步细分为16个子类别。受到Morris等人(2024)的启发,作者关注的是能力而非过程。具体来说,作者的本体论指出了Physical AI模型应当具备的关键能力,而没有详细说明系统完成任务的具体机制或形式。例如,作者认为理解物体的空间关系、事件的时间顺序以及物体持久性是Physical AI的基本能力之一。然而,这样的系统不一定需要表现出类似人类的行为,比如用灵巧的手指进行抓取或直立行走。

作者在图2中展示了作者的物理常识本体。空间类别涵盖了物体之间的关系、它们的交互以及周围的环境,其中包括关系、合理性、一致性和环境等概念。时间类别涉及在一段持续时间内发生的动作和事件,涵盖动作、顺序、因果性、相机和规划等内容。最后,作者引入了一个基础物理类别来处理物体及其核心物理原理,包括属性、状态、物体持久性、力学、电磁学、热力学和反物理等概念。所有子类别的详细定义见表1。

2.2. Embodied Reasoning

物理域的AI在真实世界中运行,这里的环境是动态的、不确定的,并且受到复杂的物理交互的支配。与数学和编程中的抽象推理不同,后者以结构化和确定性的方式操作符号,实体化推理要求AI系统能够与物理世界进行互动并从中学习。不同于被动的理解,实体化AI中的推理往往基于行动,使机器人不仅能理解它们当前所观察到的内容,还能在未来不确定和动态的环境中规划智能行为。具体而言,实体化推理需要具备以下能力:

处理复杂感知输入。与处理干净数据表示的符号推理不同,基于物理的推理必须从原始的、常常是不完整且模糊的感官输入中提取出有意义的模式。

预测动作效果。动作具有物理效应,有效的推理需要对因果关系有直观的理解。AI系统必须预测物体受力后的反应,机器人身体与周围环境的相互作用,或者车辆运动如何受到地形和物理法则的影响。

尊重物理约束。与抽象问题求解不同,后者往往涉及优化离散选择,而具身推理必须考虑真实世界的物理法则,如惯性、摩擦和材料属性。它要求AI生成在物理约束下可行的长期行动计划,确保执行时的稳定性和安全性,并提高效率。

从交互中学习。在物理AI中,动作并非孤立发生;每一次移动或决策都会影响环境并产生反馈。具身推理必须根据这些交互不断更新其理解,从而使系统能够动态地调整其行为。

嵌入式推理也不局限于某种类型的智能体——它适用于各类形式的人、动物和机器人,包括机械臂、类人形或自主车辆等。它们都需要发展类似的嵌入式推理能力来在不同的环境条件下和任务目标下进行导航、操作,并做出适应性决策。作者按照示例将物理表现能力和类型总结为二维本体,详见表2。

在本文中,作者专注于作者之前定义的前三项体态化推理能力,并将“从交互中学习”留作未来的工作。具体来说,作者将视频输入作为“处理复杂感官输入”的代表例子进行研究。对于“预测动作效果”,作者关注两项任务:任务完成验证,用于确定任务是否已完成;以及下一个可能的动作预测,用于预测实现目标时下一个最有可能的动作。对于“尊重物理约束”,作者关注动作可能性评估,以判断是否有可能朝着目标执行特定的动作。作者收集了来自不同 Agent 人的视频数据,包括人类、机械臂、类人机器人和自动驾驶车辆。通过研究这些多样化的案例,作者旨在加深对体态化推理如何使智能体与物理世界进行互动的理解。

3. Cosmos-Reason1

Cosmos-Reason1 是一类专门用于物理智能推理的多模态大语言模型系列。

该系列包含两个模型:Cosmos-Reason1-8B 和 Cosmos-Reason1-56B。在本节中,作者介绍了作者的多模态架构设计以及所选用的大语言模型 Backbone 网络。

3.1. Multimodal Architecture

构建多模态大语言模型(LLMs)的不同架构设计包括使用现有文本-only LLM 后端和视觉编码器。常用的架构有两种:解码器-only 架构(例如,LLaVA(Liu等人,2023))和基于交叉注意机制的架构(例如,Flamingo(Alayrac等人,2022)和Llama 3-V(Grattafiori等人,2024))。作者采用与LLaVA(Liu等人,2023)和NVLM-D(Dai等人,2024)相似的解码器-only 架构,这是因为其简单性以及通过将其他模态(图像或视频) Token 映射到文本 Token 嵌入空间来统一处理所有模态。具体而言,模型以视觉编码器(Chen等人,2024)开始,接着是一个包含下采样两层MLP的 Projector ,最后是解码器-only LLM 后端(Nvidia等人,2024;Waleffe等人,2024;DeepSeek-AI,2025)。

在本研究中,作者选择了InternViT-300M-V2.5(Chen等,2024)作为Cosmos-Reason1-8B和Cosmos-Reason1-56B的视觉编码器。对于每一幅输入图像,作者将它动态调整到预定义的宽高比,并将其分割成1到12个块,每个块的尺寸为像素,具体取决于图像的分辨率。此外,作者还会生成一个缩略图块,这是全图像的缩小版本,以保留全局上下文。更多细节可以参见Dai等(2024)。对于每一帧输入视频,作者均匀抽样最多32帧,最大帧率为每秒2帧,并将每帧调整至像素。对于每个尺寸为像素的视频帧输入,视觉编码器生成1,024个视觉Token,patch大小为,然后通过PixelShuffle(Shi等,2016)进行下采样,将其减少到256个Token,即将空间维度转换为通道维度。来自多个块的图像Token与交错的块ID标签进行拼接,按照Dai等(2024)所述,而来自多个帧的视频Token则直接进行拼接。Cosmos-Reasonl的大语言模型主干遵循混合Mamba-MLP-Transformer架构设计。关于大语言模型主干的更多讨论见第3.2节。作者在图3中展示了作者的多模态架构,并在表3中总结了作者的模型配置。

3.2. Hybrid Mamba-MLP-Transformer Backbone

自Transformer架构(Vaswani等,2017)问世以来,它已经彻底改变了语言建模领域,成为构建基础模型的事实标准。然而,它的自注意力机制的时间复杂度与上下文长度成二次关系。相比之下,最近提出的Mamba架构(Gu和Dao,2023)引入了线性时间的序列建模方法,并采用选择性的状态空间模型,使其在处理长序列时更为高效。实际上,Mamba的选择性状态空间可能不足以捕捉长序列中的每一个细节。为了解决这一问题,在Mamba中嵌入了一部分Transformer层以进行长上下文建模,从而产生了混合的Mamba-MLP-Transformer架构(Waleffe等,2024)。

在Cosmos-Reason1-8B和56B中,作者使用具有混合Mamba-MLP-Transformer架构的预训练大语言模型(Nvidia et al., 2024;Waleffe et al., 2024)作为作者的大语言模型 Backbone 网络。图4提供了8B大语言模型和56B大语言模型架构的插图。作者将Cosmos-Reason1-8B模型训练为张量并行性4((Shoeybi et al., 2019),而将Cosmos-Reason1-56B模型训练为张量并行性8和 Pipeline 并行性2(以支持更长视频的训练。

4. Data

作者采用四个训练阶段将预训练的视觉编码器和大语言模型主干适应到物理AI推理模型中。这些训练阶段包括:视觉预训练、通用精调、物理AI精调以及物理AI强化学习。经过微调后,作者还使用聚焦于物理AI任务的RL进一步训练模型,以增强它们的物理学常识和体态推理能力。在本节中,作者将解释所有这些阶段的数据来源及其整理过程。

4.1. Vision Pre-Training

视觉预训练的目标是通过将图像和视频Token映射到文本Token嵌入空间,来实现视觉和文本模态的一致性。在此阶段,作者冻结LLM主干和视觉编码器,仅训练两层MLP Projector 。

在预训练阶段,作者精心构建了一个多样化的图像-文本预训练数据集,该数据集涵盖了从字幕生成到视觉问答等多种任务(Dai等,2024)。作者的视觉预训练数据集包含1.3亿样本,其中包括人工标注的数据和模型生成的字幕。

4.2. General Supervised Fine-Tuning

在第二阶段,作者对视觉编码器、MLP Projector 和大语言模型主干进行端到端的任务导向监督微调。由于模型在此阶段进行全面训练,因此这一阶段对于建立核心能力、实现跨视觉和语言模态的联合理解至关重要。对于一般的任务导向微调(SFT),作者收集了两种类型的数据集——通用图像-文本数据集和通用视频-文本SFT数据集,以增强基础模型在广泛视觉-语言任务上的能力,与其他模型类似。总体而言,作者的通用SFT数据集包含600万张图像-文本样本和200万条视频-文本样本。

4.3. Physical AI Supervised Fine-Tuning

在这一阶段,作者对上一阶段训练得到的模型进行微调,使其专门应用于Physical Al领域。这一过程旨在实现两个关键目标:

(1)增强模型在Physical Al特定数据集上的视觉语言能力;

(2)培养两种关键的推理能力——物理常识推理和具身推理(详见第2.1节和第2.2节)。与前两个训练阶段不同,现有的数据来源无法直接用于Physical Al的SFT(细调)过程。为解决这一挑战,作者开发了一种专门的Pipeline来精心策划适用于物理常识和具身推理应用的SFT数据集。与预训练和通用SFT阶段不同,Physical AI SFT数据的一部分,特别是视觉问答(VQA)对,是通过模型在环中的方式生成的,而不是直接来自人类策划。

对于物理常识,作者构建了VQA数据集以回答来自视频的自由形式和多项选择问题。对于具身推理,作者将现有的数据集进行子采样并转换为作者用于SFT的数据集,涵盖不同具身形式的各种任务范围,包括人类、机器人手臂、类人机器人以及自动驾驶车辆。对于每个数据集,作者收集了两种类型的标注:理解与推理。

理解标注包含视频的问题和答案以及视频中状态和动作的详细描述(结构化视频描述)。推理标注包含给定文本 Prompt 下的长链推理(CoT)思考过程以及输入视频。此外,作者还进一步整理了一些特定的推理SFT数据集,以增强模型对时空视觉刺激(通过视频中的谜题和时间箭头)以及物体持久性的理解能力。这些数据集统称为直观物理。表4总结了作者用于物理AI SFT的数据集,图5展示了物理AI SFT数据集中视频帧的示例。接下来,作者将详细介绍具体设置的整理流程。

4.3.1. Physical Common Sense SFT

如前所述,为了获取物理常识,作者收集了包含自由形式问题和多项选择题(MCQ)的数据集。作者编纂物理常识数据的流程包括五个阶段:

人工在环视频策展。作者根据人类的偏好整理出一系列高质量的视频,并从中提取短片段作为训练样本。

详细描述生成。作者采用可靠的human annotators或预训练的视觉-语言模型(VLMs)来提取视频的详细描述。这些描述作为“caption”,作者利用它们构建视频片段的理解和推理标注。

构建问答对。作者促使大语言模型根据详细的视频片段描述生成自由形式的问题或多项选择题。作者构建了两种类型的问题:

(1)理解类问题,涵盖视频中(通过字幕观察到的)的内容;

(2)假设性的推理类问题,需要使用字幕中的信息来构造问题,但不能直接根据详细的字幕回答。推理类问题要求超出仅仅感知片段中的事件和物体的思考。作者的推理问题聚焦于常识推理、空间推理和时间推理。 Prompt A.1展示了用于生成推理问题的一个示例问题构建 Prompt 模板。

提取推理痕迹。为了获得完整的“推理”标注,作者 Prompt DeepSeekR1(DeepSeek-AI, 2025)使用详细的描述性说明作为上下文来回答推理子集的问题。然后,作者将 DeepSeek-R1 的回复解析为推理痕迹和答案。作者发现,提出无法直接从描述性说明中得出答案的问题非常重要。否则,DeepSeek-R1 可以直接从提供的描述性说明中检索答案,从而使推理痕迹无效,不适合用于模型训练。作者的“推理”标注包括推理问题、相应的视频片段、推理痕迹和答案。 Prompt A.2 展示了一个用于激发 DeepSeek-R1 推理的样例 Prompt 。

清洗与重写。最后,作者采用基于规则的方法对“推理”标注进行清洗和重写,以生成有效的样本用于指令跟随训练。由于作者将视频片段的视觉上下文压缩为文本,因此重写有助于去除训练样本中的不必要的引用,如“描述”或“字幕”。

使用上述Pipeline,作者编制了包含自由形式和多项选择问题的物理常识VQA数据集,并考虑了以下几点:

自由格式问题:作者从精心挑选的“高质量”片段集合中使用了9900个视频,并获得了由人类标注的相应详细描述。人工标注的字幕平均长度为297.4±46.4词。对于自由格式问题,作者通过上述 Pipeline 获得了约99千的理解SFT样本和约59.4千的推理SFT样本。

多项选择题(MCQ):为了确保作者的模型能够回答多项选择题(MCQ),作者另外收集了一组“理解”和“推理”类型的MCQ数据集,针对高质量精選片段。与开放式问题不同,作者首先使用视觉语言模型(VLM)为大约120万条高质量片段标注详细描述。利用这些描述,作者构建了大约240万条“理解”类型的MCQ。随后,作者选取约35.6万条片段,并使用详细的描述生成了大约60万条“推理”类型的MCQ。

4.3.2. Embodied Reasoning SFT

作者针对物理AI智能体决策制定的核心能力设计了一套具身推理强化学习数据整理Pipeline,并重点关注三个关键属性:(1)“任务完成验证”:确定某个任务或子任务是否已成功完成的能力;(2)“操作可行性”:评估执行特定操作或向目标推进是否可能的能力;以及(3)“下一步最有可能的动作预测”:识别最有可能推动向指定目标前进的下一项动作或子任务的能力。这些属性对于各种具身形式和任务配置中的有效决策至关重要。为了培养这些推理能力,作者从公共和专有数据集中筛选并整理了SFT样本。作者使用的具身推理SFT数据集包含结构化的条目,具有四个组成部分:视觉描述、问题、相应的答案以及详细的推理追踪。

演示物理AI智能体执行目标导向任务的视频构成了作者主要的具身推理数据来源。作者从包含人类、机器人或车辆执行特定任务示例的来源中收集SFT数据。对于具身推理,作者专注于与作者关注的关键属性相关的短期推理——确定一个智能体是否能够在给定目标的情况下(判断可行的操作或下一步子任务),思考立即接下来的子任务或动作,或者评估短期任务的成功完成情况(验证任务完成)。由于现有的物理AI演示数据集可能缺乏提取局部化动作或子任务序列所需的密集标注,作者采用了一系列专门步骤来提取这些片段。作者确保策划的数据集在多样性和短期推理粒度(即立即接下来的动作或立即接下来的子任务)、具身体现和推理 Prompt 方面丰富。作者使用的策划流程包括以下几个一般步骤(如图6所示):

提取短时间窗片段。由于作者关注的是短时间窗的推理任务,作者将长视频演示拆分成专注于短时间窗推理任务的简洁片段。这些片段捕捉单一动作(例如,“向左移动”)或独立子任务(例如,“打开冰箱门”)。如果现有数据集已经提供了适当分段的片段或时间戳,作者将直接利用它们。否则,作者将利用动作原语和计划等互补标注来提取这些短时间窗片段。

标注状态-动作上下文。对于每一个短时域片段,作者使用VLM生成结构化的描述,详细说明当前存在的物体、它们的属性以及相关的动作。当数据集提供了能够提升此类结构化描述质量的补充标注信息时,作者将这些信息融入到VLM Prompt 中。这些构成了作者用于具身推理SFT的“理解”标注。对于自动驾驶车辆数据,作者直接使用人工标注的描述。

构建推理QA配对。作者开发了专注于作者感兴趣的关键属性的推理问题-答案配对,基于可用的子任务和动作注解。对于已经包含适合解决作者目标属性的QA配对的数据集,作者在将其加入作者的情景智能体强化学习数据池之前,仅进行最少的基于规则的预处理。

提取推理轨迹 - 作者使用 DeepSeek-R1(DeepSeek-AI, 2025)生成作者的问答对的推理轨迹。由于 R1 缺乏视觉处理能力,作者构建了包含状态动作上下文、问题以及附加信息(例如子任务说明或总体目标)的 Prompt ,以激发合适的推理轨迹。图6 展示了这一过程,而 Prompt A.3 则展示了一个示例用户 Prompt ,它将视觉信息转化为关于“接下来最可能的动作”的短期问题的文本上下文。

清理与重写 - 最后,作者使用基于规则的方法进行清理和重写,以保留有效的推理轨迹。由于作者将视频片段的视觉上下文压缩为文本,因此重写有助于去除对“描述”或“标题”的无关引用。

每个数据集在策展Pipeline的具体步骤略有不同,但整体Pipeline保持一致。作者现在描述这个Pipeline在各个数据源中的应用方式。

BridgeData V2:BridgeData V2(Walke等,2023)旨在通过提供广泛的机器人操作行为来促进可扩展的机器人学习。该数据集强调基础的物体操作任务,如拾取和放置、推和扫,同时也涵盖了更为复杂的活动,例如堆叠积木和折叠衣物。BridgeData V2 包含了60,096条轨迹,其中包括50,365个远程操作演示和9,731个预设的拾取和放置演示片段,覆盖了跨越24种不同环境的13项独特技能。每个轨迹都标注有与机器人执行的任务相对应的自然语言指令。环境被分类为四个组别(玩具厨房、桌面、玩具水槽和其他),其中大部分数据是从七个独特的玩具厨房中收集而来,这些玩具厨房包括了不同的洗碗池、炉灶和微波炉的组合。首先,作者从数据集的“训练”分割中拆分视频,并获取了129.5万个视频片段。然后,作者使用视觉语言模型(VLM)对这些视频片段进行描述,生成理解标注。在描述 Prompt 中,作者还提供了从ECoT检测到的目标和行动序列(Zawalski等,2024)的额外信息。对于BridgeData V2,作者只生成“下一项最有可能的操作预测”相关的问答对,其中答案对应于行动本原,如向左移动。这些推理标注是由将描述和问题输入DeepSeek-R1生成的。

RoboVQA:RoboVQA(Sermanet等,2024)是一个大规模面向机器人的视觉问答数据集。该数据集包含视频、指令以及执行任务的智能体(机器人、人类、携带抓取工具的人类)的任务过程中的问题-答案对。RoboVQA包含六种不同类型的问题,涵盖了规划相关、任务完成验证、辨别性功能、生成性功能、过去描述和未来预测等方面(这些都与之前概述的属性相对应)。作者直接使用RoboVQA中的片段,无需剪辑,从而构建了一个包含约22万个片段的数据集。作者使用VLM为这些片段添加字幕,并通过将任务背景、字幕和问题结合成合适的用户 Prompt 来从DeepSeek-R1中提取推理痕迹。这导致了约93万个带有推理痕迹的问题-答案对。在清理后,作者筛选出一个合适的子集,并使用数据集“train”划分中的片段和问题-答案对进行强化学习(SFT)训练。RoboVQA用于SFT的样本涵盖了作者的实体推理编排 Pipeline 中所需的全部三种属性。

AgiBot: AgiBot World(AgiBot, 2024)是一个高保真机器人操作数据集。数据是在使用AgiBot G1硬件平台收集的,涵盖了广泛的实际任务。该数据集包含36个任务,每个任务包含多个根据环境和物体而变化的任务集。作者对每个任务进行了一部分任务集的子采样,总共产生了3,300个视频。每个视频都标注了整体任务信息以及多个子任务标注,包括起始帧和结束帧。作者利用这些动作标注来分割视频,最终形成了一个包含19,800个片段的数据集。这些片段通过视觉语言模型(VLM)进行标注,以将视觉信息转换为场景/物体描述及其运动。作者仅针对AgiBot生成“下一个最有可能的子任务预测”的问题,其中答案对应于一个具体的子任务(如将黄瓜放入袋子)。然后作者使用DeepSeek-R1基于生成的描述推理出完成任务所需的下一个可能的子任务。

HoloAssist:第一人称视角的数据集捕捉到关键的主观视角,提供了对人类行为的自然和沉浸式理解,但同时也带来了独特的挑战,包括相机运动、微妙的动作、遮挡、视域之外的目标、空间视角问题以及对全局场景理解的需求。尽管存在这些挑战,这类数据集仍然对于开发物理AI系统中的身体化决策能力具有重要价值,可能使物理AI能够在现实世界环境中实现类似人类的解释和响应能力。作者选择基于HoloAssist(Wang等,2023),它包含了166小时专注于物体中心操作任务的第一人称视频。值得注意的是,HoloAssist独特地包含了人类犯的错误及其纠正步骤。这些见解可以帮助物理AI以类似于人类学习的方式进行学习,并通过在现实世界中与物体互动来完善其理解能力。利用HoloAssist中的带时间戳粗粒度和细粒度动作标注,作者将1,758个视频分割成最终包含139,653个片段的dataset。作者采用了一种视觉语言模型生成标题标注。仅为HoloAssist产生“下一个最有可能子任务预测”的问题,答案对应于一个子任务。作者使用DeepSeek-R1根据生成的标题预测完成任务所需的下一个可能子任务的推理过程。在每个Pipeline中,作者提供任务标注作为总体目标,细粒度标注作为当前子任务,以补充标题生成。

自主驾驶车辆(AV):作为物理AI的关键领域之一,自主驾驶车辆(AV)依赖大量高质量的数据以实现安全可靠的自动驾驶体验,特别是在端到端系统迅速扩展的时代。在本文中,为了避免描述幻觉,特别是在细微行为和复杂交互方面,作者利用了由人工高质量标注的专有数据集。作者的数据集包含约12,400个视频,每个视频时长为20秒,总计约70小时。每个描述包括三个类别:(1)一般描述,详细说明了自我行为、环境条件(例如场景类型、时间、天气、路面状况),以及关键目标(例如车辆、行人、骑行者、交通灯、交通标志);(2)驾驶难度,基于所需的驾驶员注意力水平和情境的独特性或风险程度提供了简要的驾驶复杂性评估;(3)注意点,强调了值得注意的事件,如标志和信号、道路使用者互动以及异常行为。通过利用这些描述,作者将驾驶视频转换为结构化的描述。随后使用DeepSeek-R1生成推理轨迹,根据这些结构化描述预测最有可能的即时行动。

4.3.3. Intuitive Physics SFT: Spatial Puzzles, Arrow-of-Time and Object Permanence

尽管前期的微调阶段能够支持物理AI应用中的领域特定推理,作者还引入了额外的微调阶段来培养围绕直观物理学的基本推理能力。虽然直观物理学的推理能力涵盖了广泛的分类(参见表1),但作者专门关注三个关键方面:通过空间谜题进行的空间连续性推理(spatial continuity reasoning)、通过视频中事件的时间顺序进行的时间箭头推理(arrow of time reasoning),以及通过基于模拟的任务评估物体持久性的物体性推理(objectness reasoning)。这些任务本质上是自监督的,这简化了数据收集过程。尽管在更复杂的任务上取得了显著进展,但当前最先进的视觉语言模型在这些更简单的基础推理目标上仍然表现不佳。为了弥补这些不足,作者专门收集了针对空间连续性、时间箭头和物体持久性的微调数据集。

关于空间连续性的推理:空间拼图。除了空间关系的理解外,掌握空间连续性对于物理AI任务至关重要。为了赋予作者的模型对空间连续性的基本理解,作者进一步在解决空间拼图的任务上进行微调。具体地,作者收集了3000个包含多样背景、动作和相机姿态的视频片段。对于每个视频片段,作者提取第一帧并将其划分为的patches。然后,作者将这些patches进行重新排列以形成一个新的片段序列,其中一帧就是一个patch。作者 Prompt 模型识别每个patch相对于原始帧的位置,包括左右上下四个方位。为进一步增加任务的复杂性,作者在每个片段中引入了7张额外的干扰图像,每张干扰图像也划分为的patches。这意味着每个样本总共会有32张重排后的图像供模型推理正确的相对位置。此外,作者还设计了几项“身份”导向的辅助任务——确定哪两帧或三帧源自同一幅与初始帧相同的图像。类似于对比学习,这一任务要求模型发展强大的空间推理能力,并区分相关和不相关的样本,现在是在推理的基础上进行区分。

为了生成高质量的空间连续性推理数据,作者首先使用VLM对每一个32个Patch进行标注,并将这些描述输入到DeepSeek-R1中以解决三个任务之一。作者只保留R1做出正确预测的样本。每一张3000张图片会被多次处理,伴随着不同的干扰物和混合顺序。经过筛选后,作者的最终数据集包含10,000个视频。 Prompt A.4展示了一个用于激发推理痕迹的示例 Prompt 。

时间推理:时间箭头(AoT)。就像空间一样,作者也赋予作者的模型关于时间进行推理的能力,特别是宏观尺度上事件的时间顺序。作者希望作者的模型能够理解,在宏观尺度上时间是不可逆的,这一点可以通过视频中的运动和活动模式来感知。能够推理出单向的时间箭头对于Physical AI来说至关重要,因为这与熵、重力以及因果关系等基本物理现象紧密相关。此外,时间改变或倒序的视频中包含违背物理现象的现象,一个具备推理能力的Physical AI应该能够识别这些现象。

作者构建了一个包含30,000个短视频片段及其反转版本的数据集,并使用了Agarwal等人(2025)训练数据集的部分视频。这一部分包含了许多多样且复杂的任务,其中经常涉及显著的运动。作者优先选择包含大量运动的视频,因为这些视频是最具代表性的例子,有助于区分时间的方向。与之前的阶段不同,作者直接使用VLG从正向和反向播放的片段中提取推理过程。作者发现,采用第4.3.2节的方法对思考过程提取效果不佳。为了改进筛选过程,作者在用户 Prompt 中明确指示视频是正向播放还是反向播放,从而帮助VLG生成更合理的解释。此外,作者精心设计了 Prompt ,以确保两种播放方向的推理过程在风格和长度上保持一致。示例 Prompt 模板如Prompt.A.5所示。为了增加推理的多样性,作者分别为每个正向和反向视频策源两个不同的推理过程。

关于物体性的推理:物体恒常性。尽管空间连续性和时间顺序为理解物理关系和序列提供了基础,而物体恒常性——即理解即使物体无法直接观察到它们仍持续存在——代表了一种关键的推理能力,对于物理AI智能体来说至关重要。如果没有强大的物体恒常性推理能力,视觉语言模型(VLMs)在处理物体频繁进出视野或被遮挡的基本现实场景时将会遇到困难,严重限制了其在需要一致的目标跟踪和预测能力的物理AI应用中的实用性。

对于物体恒常性,作者构建了一个包含10,000个由Libero(Liu等人,2023年)机器人仿真平台合成片段的SFT数据集。Libero提供了涵盖多种环境、桌面物体以及预录制的臂部动作序列的130项机器人臂操作任务。为了增强场景多样性,作者从这些任务中随机选取设置,并应用物体置换和扰动。

相机定位以面对桌子中心,并通过在球面上随机选择起始和结束点来环绕场景。在播放预录制的臂部动作时,相机会平滑地从起始点过渡到结束点,然后再接近其初始位置。在整个过渡过程中,某些物体可能会暂时被遮挡,一旦完全被遮挡,某些物体可能会被随机从场景中移除。作者向模型提供适当的上下文并要求其分析每一个片段,判断是否有物体意外消失,违反了物体恒常性。为了确保模型生成的推理路径能够一致地得出正确答案,作者在 Prompt 中提供了哪些物体消失且不再出现的指示。

然而,在最终的SFT数据集中,这些 Prompt 被从 Prompt 中移除。对于物体恒常性,作者发现将视觉上下文压缩成标题的标准Pipeline方法在提取有用的推理路径方面效果不佳。为此,作者从Cosmos-Reason1-8B的中间版本中提取了思维路径。Prompt A.6展示了用于从Cosmos-Reason1-8B中引出推理路径的一个示例 Prompt 。

4.4. Physical AI Reinforcement Learning

在微调过程中建立了基础的物理常识和具身推理能力之后,作者通过训练后的强化学习进一步增强这些能力。这种方法需要有效的奖励机制,作者采用DeepSeek-AI(2025)中经过验证的基于规则和可验证的奖励机制来实现。与数学和编程等LLM领域中精确定义正确答案和格式的情况不同,物理常识和具身推理通常涉及自由形式的、开放式的回应,这使得奖励的分配更加复杂。

为了应对这一挑战,作者将推理SFT数据源中的样本(不包括思维轨迹)转换为具有单个正确答案的多项选择题(参见表5中的样本数量)。这种转换本身使响应的简单、基于规则的验证成为可能。作者的RL后训练数据集包含了所有物理AI SFT数据源的样本,其中某些子集——特别是空间谜题、AoT和物体持久性数据——已经以二进制问题格式存在,因此可以直接作为多项选择题使用而无需修改。作者手动验证用于RL后训练的样本质量。作者将在下文中详细描述各个数据源的具体特点。

物理常识强化学习数据。作者收集了来自1989个视频的5133个人标注的二选一和多项选择问题。为了帮助控制问题的难度,作者使用标注的问题来评估包括GPT-4o、Gemini Flason 2.0、Qwen2.5-VL-7B以及作者的8B模型在内的四个模型。基于评估结果,作者将收集的数据进一步划分为两个子集:(1) 容易子集,其中所有模型均正确回答了这些问题;(2) 困难子集,其中至少有一个模型未能正确回答这些问题。

具身推理RL数据。作者从每种具身推理数据源中选择200-250个SFT样本,并将其转换为多项选择题(MCQ)。为了确保高质量的RL后续训练,作者仔细验证这些样本不含答案和指令的歧义性,同时在MCQ选项中保持均衡分布,以防止潜在的奖励作弊。这个过程需要一些人工干预,特别是在非二元问题上,作者需要选择合适且显得合理的干扰选项,但又是明显错误的。人类在环是保证题目质量所必需的,这使得生成大量规模的MCQ数据用于训练变得困难。

直观物理RL数据。如前所述,作者自监督的直观物理SFT数据在设计上自然以MCQ格式存在,这使其能够生成多样化的题目并实现扩展。为了这些任务,作者实施了额外的质量保证措施,确保所有样本中选项分布平衡。作者在生成过程中仔细避免与SFT期间使用的片段重叠,以防在RL后训练阶段过早饱和。对于RL后训练阶段,作者精心筛选并收集了涵盖空间连续性、时间箭头和物体恒存等任务的24079个高质量样本。

5. Benchmark

作者将在一个专门针对测量物理常识和体态决策推理能力的基准上,将作者的训练模型与其他同类模型进行比较。在本节中,作者将讨论构建常识和体态推理基准的过程(参见表6)。作者通过提出基于视频背景的二选一的“是”或“否”问题或多选题(MCQ)来评估模型。作者注意到,作者的基准要求通过推理得出正确答案,并且作者仅衡量最终答案的准确性。作者将在未来的工作中量化思考过程的质量评估。

5.1. Physical Common Sense Reasoning

作者根据第2.1节中定义的本体论手工整理了一系列关于互联网视频片段的问题,构建了一个物理常识推理基准。最初收集了5737个问题,包括2828个二元问题和2909个多选问题。图7展示了根据作者的本体论的问题类别分布。随后,作者经过手动筛选,从使用的426个视频片段中选择了604个问题作为物理常识基准,其中336个是二元问题,268个是多选问题。在这604个问题中,有80个(占13.25%)涉及空间问题,298个(占49.33%)涉及时间问题,226个(占37.4%)涉及基本物理学。

5.2. Embodied Reasoning

类似于作者为具身推理编撰的数据处理Pipeline,作者将具身推理基准限定在之前概述的属性范围内——(1) “任务完成验证”:评估任务或子任务是否已成功完成的能力;(2) “操作可行性”:判断执行特定动作或向目标进展的可能性;以及(3) “下一个最有可能的操作预测”:识别最有可能推进向指定目标前进的下一步操作或子任务。作者以多项选择题(MCQ)的形式展示作者的具身推理基准样本,以便对模型进行自动评估。为了确保基准能够有效衡量具身推理能力,作者采取了几个关键步骤。

统一的问题模板。作者采用统一的提问格式以确保推理基于视觉输入而非文本 Prompt 。这种方法也有助于统一动作的粒度并减少不同数据集之间的歧义。

统一的动作粒度。作者特别关注动作的粒度问题。在预测下一步立即执行的动作时,可能存在多个正确的选择。例如,“浇灌植物”这一动作可能包括“拿起浇水壶”、“移动浇水壶”和“倾倒浇水壶”等步骤。然而,这些步骤又可以进一步细分为更精细的子动作,比如“向左移动”或“倾斜下倾”。为了应对这一复杂性,作者采用了一种动作层次结构(Belkhale等人,2024):作者将原子级动作定义为“动作”,较粗粒度的动作定义为“子任务”,而数据集特定的任务则定义为“目标”。

手工精修。除了采用系统性方法解决歧义问题外,作者还手动修改了多项选择题选项。这些修改有助于解决过于相似的选项问题,通过防止答案仅从文本中推理出来以强化视觉推理,并强调整个片段的完整上下文而非仅仅早期帧的内容。

RoboVQA:作者从经过处理的RoboVQA样本中“val”分割(未纳入SFT训练集)中抽取101段视频片段用于基准测试。为了进行基准测试,作者仅考虑与验证任务完成情况(是否成功遵循了提供的指令)或可行性(是否有可能遵循某个指令/完成某个任务)相关的视频片段及对应的问答对。这些问题被作为多项选择题的形式呈现,答案为“是”或“否”。

RoboFail:除了RoboVQA,作者还手动从RoboFail(Liu等,2023)数据集中挑选并标注了100个例子,以创建一个更难的“行动容许性”和“任务完成验证”评估集。这些样本的难度取决于以下几点:(1) 对高度观察性和全面时间上下文处理的需求;(2) 识别物理约束阻碍行动连续性的问题(与RoboVQA不同,在那里由于感知不匹配或无关指令导致无法完成行动);以及(3) 能够对复杂问题进行推理的能力。

BridgeData V2: 作者将BridgeData V2的“val”分区的视频按照与训练集相同的方式划分为片段。然后,作者从中抽取100个片段,创建了100组多项选择问答对作为基准数据集。在每个问题中,作者提供了机器人夹爪在该片段中被指示执行的任务,并要求根据视频中机器人已进行的操作,推测最有可能的下一个立即行动是什么。

AgiBot:作者从处理过的AgiBot SFT数据中抽取100段剪辑,生成100组多项选择题与答案对。对于每一段剪辑,作者额外提供了任务信息,并询问在给定的子任务序列中,哪一个子任务是最有可能成为机器人接下来工作目标的子任务。作者从该剪辑完整轨迹的子任务序列中随机选取选项。值得注意的是,这些轨迹并未包含在训练集中。

HoloAssist: 作者从处理过的HoloAssist SFT数据中抽取100段视频片段,生成100组多项选择问答对。对于每一段视频片段,作者还提供粗粒度的动作标注作为总体目标,并要求指出给定的子任务中最有可能的下一个子任务。作者从同一粗粒度动作下的其他细粒度动作标注中随机选取选项。为了防止场景泄露,总共有34个包含这些片段的视频(总共1758个视频)被排除在训练集之外。

AV: 作者从自有数据中精选了100个视频,构建了100个多选题问答对。这些视频展示了多样化侧向和纵向行为,以及丰富的互动。问题的设计旨在:(1) 预测 ego 车辆接下来最有可能采取的动作;(2) 验证之前执行的动作是否已完成;以及 (3) 评估特定动作在给定场景中的可能性。请注意,这些基准数据样本未包含在训练集中。

6. Experiments

在本节中,作者阐述了对Cosmos-Reasonl进行物理AI监督微调和物理AI强化学习的实验设置,并讨论了在基准测试上的评估结果。

6.1. Physical AI Supervised Fine-Tuning

作者首先采用NVLM (Dai等,2024) 提出的预训练和通用监督微调策略来获得8亿参数和56亿参数的主干模型。Physical AI SFT则基于这些主干模型进行微调。对于CosmosReason1-8B,作者进行了4万次迭代的训练,学习率为,随后进行了4万次迭代,学习率衰减至。对于Cosmos-Reason1-56B,作者进行了3万次迭代的训练,学习率为,随后进行了2万次迭代,学习率衰减至。

对于两种模型,作者都使用了全局批量大小32和融合Adam优化器,其中,权重衰减率为0.1。在训练过程中,作者遵循平衡数据采样策略,确保SFT过程中没有特定领域的数据被过度代表。除非另有说明,对于作者的模型,作者报告的是温度设为0.6,top-p设置为0.95的不同随机种子下五次推理的平均准确性。对于评估其他模型,作者采用了零样本的链式思考 Prompt 方法(Kojima等,2022),通过调用其APIs(如GPT-4o,OpenAI o1,Gemini 2.0 Flash)或使用其开源模型预训练权重(Qwen2.5-VL)来进行。

6.1.1. Physical Common Sense Results
6.1.2. Embodied Reasoning Results

与各自的 Backbone 大语言模型相比,性能提升了超过10%。实验结果表明,作者的物理AI微调方法在增强模型的物理AI体现推理能力方面效果显著。

6.1.3. Intuitive Physics Results

尽管视觉语言模型(VLMs)常被视为能够在某些领域达到超人类表现的专家,但作者的研究揭示了许多模型在基本物理推理方面存在困难。为了测试模型理解直观物理的能力,作者为三个任务——时间箭头、空间谜题和物体持久性——每个任务收集了100个视频,并根据第4.3.3节中的Pipeline生成了100道问题。作者进行了数据去污染处理,以确保测试数据与训练数据无交集。作者评估了模型在这份精心挑选的测试集上的性能。

6.2. Physical AI Reinforcement Learning

作者使用简单的基于规则且可验证的奖励对模型进行后训练,进一步增强其物理AI推理能力。为此,作者构建了自己的 reinforcement learning (RL) 基础设施,并使用该基础设施对模型进行后训练,使其能够处理与物理常识、具身以及直觉物理推理相关的任务。首先,作者将描述所构建的基础设施;然后总结作者的实验发现。

6.2.1. Infrastructure

为了支持大规模多样化模型架构的后训练,作者构建了一个自定义的强化学习框架。类似现有的veRL (Sheng等,2024) 和OpenRLHF (Hu等,2024)框架,作者利用了Ray的分布式计算能力(Moritz等,2018),这使得复杂的计算流程在资源管理方面更为简洁高效。虽然作者也采用了这些框架的基于阶段的方法——每个阶段包含多个智能体——但作者采取了更为模块化的设计,专注于智能体协调。

这种刻意的设计选择赋予用户完全自由来实现特定于模型的代码,包括训练、权重同步和批处理推理。最终的架构提供了高度的灵活性,并且框架代码得到极大简化,易于根据具体项目需求进行定制。为了最优化资源利用率,作者借鉴了Xiao等(2023)提出的异构分解策略,实现了渐进式批处理方法,确保持续高的计算吞吐量的同时最大限度减少GPU空闲时间。

作者采用GRPO(Shao等,2024)作为作者的强化学习算法,因为它简单且计算效率高,无需训练和维护单独的批评家模型。GRPO使策略优化过程更为简化,其中优势函数通过归一化每个 Prompt 生成的一组响应中的奖励来计算。令表示组中响应的奖励,则计算得出的优势可以表示为:

强化学习迭代分解。作者在基础设施中的每个强化学习迭代都遵循一个精简的过程:一个“数据加载器”准备文本 Prompt 和视觉数据,而“展开”阶段则高效地使用vLLM(Kwon等,2023)生成响应,尽管作者的框架支持其他推理引擎。

作者的“奖励”模型评估每个响应并计算标准化优势项,同时与一个冻结的参考模型协同工作,提供对“策略”模型进行稳定化的对数概率。在训练过程中,作者结合这些组件的信息来更新策略模型,之后通过NCCL协议使训练工作者同步权重至展开工作者,从而最小化通信开销。

6.2.2. Experiment Setup

作者采用两种基于规则的奖励来优化作者的模型,使其能够进行准确的物理智能推理:

在训练过程中,作者以相同的概率从每个强化学习数据集中采样,确保不同领域有均衡的表示。作者也实时动态地重新排列多项选择题选项,以促进泛化能力。作者使用全球批大小为128个问题,对每个问题作者采样9个输出,每个输出的最大长度限制为6144个Token。作者将学习率设置为,KL惩罚项系数设为0.005,并训练模型500个迭代周期。

6.2.3. Physical Common Sense and Embodied Reasoning Results

对于物理常识和实体推理而言,作者发现Physical AI RL的后训练在大多数基准组件上均提高了性能,唯一的例外是RoboFail。实验结果汇总在表9中。在RoboFail上的性能在整个SFT和RL阶段都保持着持续的挑战性。这不足为奇,因为RoboFail特意设计为一个手工精选的基准测试,其中包含了许多现实世界中的复杂场景,用于测试“操作可能性”和“任务完成验证”。该基准测试的难度源自多个因素:一是需要高度观察力感知或全面的时间上下文处理的样本;二是执行操作时涉及复杂的物理约束条件的问题,这与RoboVQA中的问题不同。

作者主要将RoboFail性能停滞归因于缺乏足够的代表性训练数据。这一假设通过检查微调和后训练模型的具体错误模式得到了支持,这些错误模式包括:对复杂可用性场景推理不足、未能充分注意到关键视觉细节以及在遇到细微分布外问题时过度思考。作者认为,在类似代表性样本上进行有针对性的训练将显著提高在这一具有挑战性的基准上的表现。为了进一步发展实体推理能力,作者在评估套件中特意保留了RoboFail作为有价值的指标。

有趣的是,作者发现通过强化学习,作者的模型学会了仔细评估提供的选择,在问题模糊不清时拒绝这些选择。如图8所示,当出现模糊情况时,模型会评估每个选择的可行性,并采取一种保守行动,这种行动不在提供的选择之列。

6.2.4. Intuitive Physics Results

与自监督学习类似,直观物理的一个关键优势在于数据扩展的简便性。生成时间箭头训练数据只需简单的视频反转即可,空间谜题可以应用于任何图像以创建复杂的空间连续性问题,而物体恒常性可以在任何模拟环境中轻松实现。此外,这些数据源可以无缝适应具有可验证奖励的RL训练。通过这种方法,作者成功创建了一个比常识和具身推理任务更大的RL数据集,且几乎不需要人力投入。

通过物理AI强化学习(Physical Al RL),作者发现模型进一步发展了在空间、时间和物体持久性方面的推理能力。图9展示了Cosmos-Reason1在RL前后如何推理时间的差异。该模型能够识别反物理运动——例如,粉末违背重力上升到碗中,同时不受视频中静止干扰物的影响。这表明其推理超出了简单的感知范围。同样,在图10中,没有RL的模型往往将空间问题与时间推理混淆。虽然它们能够察觉第二帧与第一帧不相似,但内在偏见使其默认遵循视频顺序,表明它们更多依赖时间线索而非真实的空间理解。利用空间谜题的RL使模型能够从第一帧中提取关键特征,并系统地在多帧之间进行比较,从而准确确定空间关系。最后,图11显示,即使经过长时间的CoT,没有Physical AI RL的模型在物体持久性方面仍存在问题,经常在其推理过程中混淆自己关于物体出现和消失的情况。相比之下,RL模型能够通过直接且简洁的推理迅速得出结论。

7. Related Work

7.1. Foundation Models for Physical AI

早期将大型预训练模型集成到具身智能体中的方法主要依赖于使用现有的大语言模型(LLMs)和视觉-语言模型(VLMs)作为静态模块。例如,利用LLM进行零样本任务规划的研究(Li等,2022;Song等,2023;Huang等,2022;Ahn等,2022)直接从预训练的LLM中提取自然语言的高级动作计划,无需额外的微调,展示了LLM在跨机器人任务上泛化的能力。类似地,Code as Policies(Liang等,2022)扩展了LLM生成结构化代码以控制机器人的用途。然而,这些预训练模型,特别是VLMs,并未专门设计用于物理互动,因此往往缺乏对物理常识的理解,导致生成的计划和执行效果欠佳。

另一条研究路线专注于直接训练端到端的视觉-语言-动作(VLA)模型,用于具身智能体(Brohan等人,2023;Driess等人,2023;Kim等人,2024;Yang等人,2025;Gemini Robotics团队,2025)。他们通常从一个预训练的视觉-语言模型开始,并通过机器人数据对模型进行微调以生成具身动作。这一方法在提高跨机器人任务的泛化能力和鲁棒性方面已显示出显著前景。值得注意的是,这些方法中的一个子类别引入了层次化策略表示,将高层次的语言驱动规划与低层次的动作执行分开(Shi等人,2025;Li等人,2025)。这类系统通常使用高层次的VLM解析自然语言指令并生成计划,而低层次的VLA则执行精细的运动控制。这些层次化的架构能够改善任务和分解性能。

近年来,人们致力于增强实体AI的推理能力。其中一个方法是实体链式思考(Chain-of-Thought,CoT)框架(Zawalski等人,2024),该框架使机器人智能体能够在执行动作之前通过顺序决策进行推理。这与更广泛的AI趋势一致,即明确的推理机制能够提高可解释性和适应性。同样地,Liu等人(2023)、Elhafsi等人(2023)介绍了用于解释和纠正失败的方法,这些方法也按步骤进行推理。虽然这些方法提高了实体AI的认知能力,但大多数仍依赖手动 Prompt 来构建其推理过程,从而限制了它们的自主适应能力和泛化能力。

除了机器人领域,VLA模型还应用于其他物理载体,例如自动驾驶。例如,CoVLA(Arai等人,2024)引入了一个大规模的视觉-语言-动作数据集,专门用于自动驾驶应用,促进了自主系统中多模态决策制定的研究。

7.2. Vision Language Models

该领域在构建视觉语言模型方面取得了显著进展。 prominently 代表性的模型包括 Flamingo(Alayrac 等,2022 年),LLaVA(Liu 等,2023 年),InternVL(Chen 等,2024 年),QwenVL(Bai 等,2025 年),NVLM(Dai 等,2024 年),以及 Llama-3.2-Vision(Grattafiori 等,2024 年)。这些视觉语言模型通常采用两种常见的架构之一:解码器架构,如 LLava(Liu 等,2023 年)和 InternVL(Chen 等,2024 年)中所示,将图像 Token 整合到大语言模型(LLM)的自注意力层中;跨注意力架构,如 Flamingo(Alayrac 等,2022 年)和 Llama-3.2-Vision(Grattafiori 等,2024 年)所展示的那样,在大语言模型的交叉注意力层中处理图像 Token。Dai 等(2024 年)在最先进的设置下比较了这两种架构,并发现解码器架构在包含视觉上下文的大学水平多学科知识和数学推理任务中表现出更强的推理能力。基于此,作者采用解码器架构来开发 Physical A1 的推理模型。

7.3. LLMs and VLMs with Reasoning Capabilities

早期的研究表明,大语言模型(LLMs)在数学(Cobbe等人,2021)、编程(Chen等人,2021)和一般推理任务中表现出基本的推理能力。通过链式思考 Prompt (Wei等人,2022),这些能力可以进一步增强。最近,OpenAI(OpenAI,2024;Jaech等人,2024)展示了大规模强化学习可以显著提升大语言模型在编程和数学中的推理能力。值得一提的是,开源项目DeepSeekR1(DeepSeek-AI,2025)已经向社区分享了其训练方法,提供了构建高性能推理模型的重要见解。然而,现有的研究主要集中在与编程、数学和STEM领域相关的推理任务上(Liu等人,2024),即使是在多模态推理环境中也是如此(Qwen-Team,2024)。近年来,在将R1的推理能力整合到多模态视觉语言模型(VLMs)中的努力有了显著增加(Liu等人,2025;Zhou等人,2025;Zha0等人,2025;Huang等人,2025;Haonan Wang,2025)。在本文中,作者探讨了物理智能体中的推理能力。

8. Conclusion

在本研究中,作者提出了Cosmos-Reason1,这是一个专门用于物理世界理解和推理的多模态大语言模型家族。为了使该模型适应物理AI,作者定义了本体来封装物理AI模型的基础能力,并相应地构建了关于常识和实体推理的监督微调数据集和基准测试。作者进一步探索了物理AI强化学习(RL)的概念,通过构建基于规则、可验证的奖励来提高模型的空间、时间和直观物理方面的推理能力。

实验结果显示,物理AI微调(SFT)能够使基础视觉语言模型(VLM)在提出的物理常识和实体推理基准测试中的性能提高超过10%。物理AI强化学习(RL)进一步提升了准确性超过8%。借助物理AI微调与强化学习,Cosmos-Reason1能够学习诸如时间箭头和物体恒久性等直观物理知识,而这一直是现有模型的难点。作者将开源作者的代码并开放模型权重,以加速建立理解并执行物理世界复杂任务的物理AI系统的研究进程。

参考

[0]. Cosmos-Reason1: From Physical Common Sense To Embodied Reasoning .

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。原始发表:2025-04-17,如有侵权请联系 cloudcommunity@tencent 删除数据性能机器人模型视频

Cosmos

物理AI系统需要在物理世界中感知、理解和执行复杂的动作。本文介绍了Cosmos-Reason1模型,该模型能够通过长期推理过程理解物理世界,并以自然语言生成适当的具身决策(例如,下一步行动)。

作者首先定义了物理AI推理的关键能力,重点关注物理常识和具身推理。为了表示物理常识,作者使用了一个层次化的本体,它捕捉了关于空间、时间和物理学的基本知识。对于具身推理,作者依赖于一个二维本体,它可以泛化到不同的物理具身形式。

基于这些能力,作者开发了两个多模态大语言模型:Cosmos-Reason1-8B和Cosmos-Reason1-56B。

作者在四个阶段收集数据并训练作者的模型:视觉预训练、通用监督微调(SFT)、物理AI微调以及物理AI强化学习(RL)作为后期训练。为了评估作者的模型,作者根据作者的本体构建了全面的基准测试框架,用于物理常识和具身推理。

评估结果显示,物理AI微调和强化学习带来了显著的改进。

为了促进物理AI的发展,作者将按照NVIDIA开源模型许可协议,在。

1. Introduction

物理AI系统设计用于与物理世界交互。为了有效地遵循指令并采取适当行动以实现预期目标,它们首先需要感知、理解和推理物理世界。近年来,通过长链思考(CoT)过程实现的训练后和测试时扩展取得了突破,大语言模型(LLMs)在跨领域如编程和数学等复杂问题上展现了显著的一般推理能力。然而,这些模型的关键局限性在于其将知识扎根于物理世界的能力。尽管通过互联网上大量文本数据训练的LLMs能够获取有关物理世界的必要知识进行推理,但它们往往难以建立该知识与实际世界交互和动态之间的联系。

在本文中,作者首先定义了物理AI系统所必需的基本能力。与专注于解决编程和数学问题的模型设计不同,作者的重点在于赋予模型物理常识知识以及基于现实世界的本体化的推理能力。为了建立一个共享框架并帮助衡量进展,作者提出了两种本体。首先,一种层级结构的本体,将物理常识划分为三大类别——空间、时间及基本物理学——并进一步细分为16个子类别。这种本体涵盖了物理世界在物理法则下运作的知识及其对与实体智能体交互的响应机制。其次,作者引入了一种二维的本体框架,涵盖四大关键推理能力,并适用于五种类型的实体智能体。基于物理常识的有效实体推理对于理解和规划在实现特定目标时所需的实际行动至关重要。详细内容请参见第2节。

作者引入了Cosmos-Reason1,作为使多模态大语言模型生成更具物理基础的响应的一个步骤。作者关注的是视觉领域,在这个领域中,世界观察被表示为视频。Cosmos-Reason1通过视频输入感知物理世界,理解它,并通过长链条的思考过程进行推理,之后再生成响应。这些响应以自然语言表达,包括解释性的见解和具体的行动决策,例如确定接下来要采取的动作。作者采用了一种纯解码器的多模态大语言模型架构,其中输入视频首先由视觉编码器处理,然后再由投影层调整与文本 Token Embedding 的对齐,之后输入到大语言模型。作者采用了可扩展且混合的Mamba-MLP-Transformer架构作为大语言模型的基础结构。Cosmos-Reason1有两种模型规模:Cosmos-Reason1-8B和Cosmos-Reason1-56B。作者在第3节详细描述了模型架构的细节。

数据决定了作者模型的能力上限。为了获得广泛的应用能力,作者在通用视觉领域收集了大规模和多样化的数据,用于视觉预训练的数据总共包括1.2亿张图像、视频以及混合数据,用于通用监督微调的数据则包括800万张图像和视频。为了增强作者的模型在物理常识和具身推理方面的能力,作者进一步设计了两条数据流水线,根据作者的本体论来收集相应的物理常识和具身推理数据。这些数据基于人类标注和来自DeepSeek-R1(DeepSeek-AI, 2025)的知识蒸馏进行筛选,用于物理AI的监督微调。关于数据的具体细节将在第4节中讨论。

在大规模构建基于规则且可验证的奖励机制对于使大语言模型在解决数学和编程问题上的推理能力取得成功至关重要。作者能否为基于强化学习训练物理AI推理模型设计出基于规则且可验证的奖励机制?在本工作中,作者探索了两种基于多项选择题(MCQ)设计的奖励类型。第一种MCQ的设计依据是人类注解。受到视频自我监督学习的启发,作者根据视频数据本身的结构自动生成第二种类型的MCQ,例如通过打乱时空视频片段来解决谜题,或者预测视频播放方向(正向或反向)。所有这些奖励都是基于规则的、可验证的,并且与物理AI的能力高度相关。作者在第4.4节详细讨论了RL训练数据和奖励的设计细节。

为了评估作者的模型,在第5节中作者构建了新的基准来评估Physical Al的能力。

在第5.1节中,关于物理常识部分,作者构建了三个基准数据集(空间、时间及基本物理学),包含来自426个视频的604个问题。在第5.2节中,关于实体推理部分,作者构建了六个基准数据集,包含来自600个视频的612个问题,覆盖了不同物理实体的各种任务范围,包括人类、机器人手臂、类人机器人以及自动驾驶车辆。

第6章介绍了Cosmos-Reasonl的评估结果及其与现有模型的比较。在第6.1节中,作者介绍了实验设置,包括视觉预训练、通用SFT和Physical AI SFT的训练细节,以及SFT模型在作者基准上的评估结果。在第6.2节中,作者介绍了强化学习的算法和基础设施以及相关的评估结果。使用作者基于规则、可验证的奖励进行RL后训练,所有基准都得到了改进。

图1展示了Cosmos-Reason1的整体框架。简而言之,作者介绍了两个多模态大语言模型,即Cosmos-Reason1-8B和Cosmos-Reason1-56B。这些模型在四个阶段进行训练:视觉预训练、通用细调(SFT)、物理AI细调和物理AI强化学习(RL)。作者定义了物理常识和体态推理的本体论。此外,作者还构建了基准测试以评估模型的物理AI推理能力。为了帮助物理AI开发者推进其系统的发展,作者将根据NVIDIA开源模型许可协议在。构建用于物理AI的推理模型仍然是一个未解难题,离完全解决还有很大的距离,作者希望本文对这一领域的进展有所贡献。

2. Physical AI Reasoning

作者识别出Physical AI推理模型的两种重要能力——物理常识推理和具身推理。首先,Physical AI模型应具备物理常识,即对环境的一种普遍理解,这种理解不依赖具体的具身体验,并构成了在现实世界中预测合理与不合理事件的基础。其次,Physical AI模型还应帮助具身体征智能体感知、推理并就未来与物理环境交互做出决策。作者旨在将“System ”和“System ”融入到物理常识推理和具身推理中。“System ”能够快速生成直观响应,如模式识别和本能判断,而“System ”则更倾向于缓慢的、有目的的推理,用于复杂决策制定(Kahneman, 2011)。

2.1. Common Sense Reasoning

人类主要通过被动观察世界来获取物理常识。例如,婴儿在出生几个月后就能理解基本概念,如物体持久性与重力(Riochet et al., 2021)。这些常识包含了关于现实世界中可能、不可能或可能发生的事情的知识集合。在实际环境中训练AI系统成本高昂,并且可能对系统及其环境构成风险。利用物理常识,AI系统能够快速学习新技能,同时在不确定性较高的场景下避免犯下关键性的错误(LeCun, 2022)。

为了定义物理常识,作者引入了一个包含三大类别及其细分类别的本体论:空间、时间和其他基础物理学,进一步细分为16个子类别。受到Morris等人(2024)的启发,作者关注的是能力而非过程。具体来说,作者的本体论指出了Physical AI模型应当具备的关键能力,而没有详细说明系统完成任务的具体机制或形式。例如,作者认为理解物体的空间关系、事件的时间顺序以及物体持久性是Physical AI的基本能力之一。然而,这样的系统不一定需要表现出类似人类的行为,比如用灵巧的手指进行抓取或直立行走。

作者在图2中展示了作者的物理常识本体。空间类别涵盖了物体之间的关系、它们的交互以及周围的环境,其中包括关系、合理性、一致性和环境等概念。时间类别涉及在一段持续时间内发生的动作和事件,涵盖动作、顺序、因果性、相机和规划等内容。最后,作者引入了一个基础物理类别来处理物体及其核心物理原理,包括属性、状态、物体持久性、力学、电磁学、热力学和反物理等概念。所有子类别的详细定义见表1。

2.2. Embodied Reasoning

物理域的AI在真实世界中运行,这里的环境是动态的、不确定的,并且受到复杂的物理交互的支配。与数学和编程中的抽象推理不同,后者以结构化和确定性的方式操作符号,实体化推理要求AI系统能够与物理世界进行互动并从中学习。不同于被动的理解,实体化AI中的推理往往基于行动,使机器人不仅能理解它们当前所观察到的内容,还能在未来不确定和动态的环境中规划智能行为。具体而言,实体化推理需要具备以下能力:

处理复杂感知输入。与处理干净数据表示的符号推理不同,基于物理的推理必须从原始的、常常是不完整且模糊的感官输入中提取出有意义的模式。

预测动作效果。动作具有物理效应,有效的推理需要对因果关系有直观的理解。AI系统必须预测物体受力后的反应,机器人身体与周围环境的相互作用,或者车辆运动如何受到地形和物理法则的影响。

尊重物理约束。与抽象问题求解不同,后者往往涉及优化离散选择,而具身推理必须考虑真实世界的物理法则,如惯性、摩擦和材料属性。它要求AI生成在物理约束下可行的长期行动计划,确保执行时的稳定性和安全性,并提高效率。

从交互中学习。在物理AI中,动作并非孤立发生;每一次移动或决策都会影响环境并产生反馈。具身推理必须根据这些交互不断更新其理解,从而使系统能够动态地调整其行为。

嵌入式推理也不局限于某种类型的智能体——它适用于各类形式的人、动物和机器人,包括机械臂、类人形或自主车辆等。它们都需要发展类似的嵌入式推理能力来在不同的环境条件下和任务目标下进行导航、操作,并做出适应性决策。作者按照示例将物理表现能力和类型总结为二维本体,详见表2。

在本文中,作者专注于作者之前定义的前三项体态化推理能力,并将“从交互中学习”留作未来的工作。具体来说,作者将视频输入作为“处理复杂感官输入”的代表例子进行研究。对于“预测动作效果”,作者关注两项任务:任务完成验证,用于确定任务是否已完成;以及下一个可能的动作预测,用于预测实现目标时下一个最有可能的动作。对于“尊重物理约束”,作者关注动作可能性评估,以判断是否有可能朝着目标执行特定的动作。作者收集了来自不同 Agent 人的视频数据,包括人类、机械臂、类人机器人和自动驾驶车辆。通过研究这些多样化的案例,作者旨在加深对体态化推理如何使智能体与物理世界进行互动的理解。

3. Cosmos-Reason1

Cosmos-Reason1 是一类专门用于物理智能推理的多模态大语言模型系列。

该系列包含两个模型:Cosmos-Reason1-8B 和 Cosmos-Reason1-56B。在本节中,作者介绍了作者的多模态架构设计以及所选用的大语言模型 Backbone 网络。

3.1. Multimodal Architecture

构建多模态大语言模型(LLMs)的不同架构设计包括使用现有文本-only LLM 后端和视觉编码器。常用的架构有两种:解码器-only 架构(例如,LLaVA(Liu等人,2023))和基于交叉注意机制的架构(例如,Flamingo(Alayrac等人,2022)和Llama 3-V(Grattafiori等人,2024))。作者采用与LLaVA(Liu等人,2023)和NVLM-D(Dai等人,2024)相似的解码器-only 架构,这是因为其简单性以及通过将其他模态(图像或视频) Token 映射到文本 Token 嵌入空间来统一处理所有模态。具体而言,模型以视觉编码器(Chen等人,2024)开始,接着是一个包含下采样两层MLP的 Projector ,最后是解码器-only LLM 后端(Nvidia等人,2024;Waleffe等人,2024;DeepSeek-AI,2025)。

在本研究中,作者选择了InternViT-300M-V2.5(Chen等,2024)作为Cosmos-Reason1-8B和Cosmos-Reason1-56B的视觉编码器。对于每一幅输入图像,作者将它动态调整到预定义的宽高比,并将其分割成1到12个块,每个块的尺寸为像素,具体取决于图像的分辨率。此外,作者还会生成一个缩略图块,这是全图像的缩小版本,以保留全局上下文。更多细节可以参见Dai等(2024)。对于每一帧输入视频,作者均匀抽样最多32帧,最大帧率为每秒2帧,并将每帧调整至像素。对于每个尺寸为像素的视频帧输入,视觉编码器生成1,024个视觉Token,patch大小为,然后通过PixelShuffle(Shi等,2016)进行下采样,将其减少到256个Token,即将空间维度转换为通道维度。来自多个块的图像Token与交错的块ID标签进行拼接,按照Dai等(2024)所述,而来自多个帧的视频Token则直接进行拼接。Cosmos-Reasonl的大语言模型主干遵循混合Mamba-MLP-Transformer架构设计。关于大语言模型主干的更多讨论见第3.2节。作者在图3中展示了作者的多模态架构,并在表3中总结了作者的模型配置。

3.2. Hybrid Mamba-MLP-Transformer Backbone

自Transformer架构(Vaswani等,2017)问世以来,它已经彻底改变了语言建模领域,成为构建基础模型的事实标准。然而,它的自注意力机制的时间复杂度与上下文长度成二次关系。相比之下,最近提出的Mamba架构(Gu和Dao,2023)引入了线性时间的序列建模方法,并采用选择性的状态空间模型,使其在处理长序列时更为高效。实际上,Mamba的选择性状态空间可能不足以捕捉长序列中的每一个细节。为了解决这一问题,在Mamba中嵌入了一部分Transformer层以进行长上下文建模,从而产生了混合的Mamba-MLP-Transformer架构(Waleffe等,2024)。

在Cosmos-Reason1-8B和56B中,作者使用具有混合Mamba-MLP-Transformer架构的预训练大语言模型(Nvidia et al., 2024;Waleffe et al., 2024)作为作者的大语言模型 Backbone 网络。图4提供了8B大语言模型和56B大语言模型架构的插图。作者将Cosmos-Reason1-8B模型训练为张量并行性4((Shoeybi et al., 2019),而将Cosmos-Reason1-56B模型训练为张量并行性8和 Pipeline 并行性2(以支持更长视频的训练。

4. Data

作者采用四个训练阶段将预训练的视觉编码器和大语言模型主干适应到物理AI推理模型中。这些训练阶段包括:视觉预训练、通用精调、物理AI精调以及物理AI强化学习。经过微调后,作者还使用聚焦于物理AI任务的RL进一步训练模型,以增强它们的物理学常识和体态推理能力。在本节中,作者将解释所有这些阶段的数据来源及其整理过程。

4.1. Vision Pre-Training

视觉预训练的目标是通过将图像和视频Token映射到文本Token嵌入空间,来实现视觉和文本模态的一致性。在此阶段,作者冻结LLM主干和视觉编码器,仅训练两层MLP Projector 。

在预训练阶段,作者精心构建了一个多样化的图像-文本预训练数据集,该数据集涵盖了从字幕生成到视觉问答等多种任务(Dai等,2024)。作者的视觉预训练数据集包含1.3亿样本,其中包括人工标注的数据和模型生成的字幕。

4.2. General Supervised Fine-Tuning

在第二阶段,作者对视觉编码器、MLP Projector 和大语言模型主干进行端到端的任务导向监督微调。由于模型在此阶段进行全面训练,因此这一阶段对于建立核心能力、实现跨视觉和语言模态的联合理解至关重要。对于一般的任务导向微调(SFT),作者收集了两种类型的数据集——通用图像-文本数据集和通用视频-文本SFT数据集,以增强基础模型在广泛视觉-语言任务上的能力,与其他模型类似。总体而言,作者的通用SFT数据集包含600万张图像-文本样本和200万条视频-文本样本。

4.3. Physical AI Supervised Fine-Tuning

在这一阶段,作者对上一阶段训练得到的模型进行微调,使其专门应用于Physical Al领域。这一过程旨在实现两个关键目标:

(1)增强模型在Physical Al特定数据集上的视觉语言能力;

(2)培养两种关键的推理能力——物理常识推理和具身推理(详见第2.1节和第2.2节)。与前两个训练阶段不同,现有的数据来源无法直接用于Physical Al的SFT(细调)过程。为解决这一挑战,作者开发了一种专门的Pipeline来精心策划适用于物理常识和具身推理应用的SFT数据集。与预训练和通用SFT阶段不同,Physical AI SFT数据的一部分,特别是视觉问答(VQA)对,是通过模型在环中的方式生成的,而不是直接来自人类策划。

对于物理常识,作者构建了VQA数据集以回答来自视频的自由形式和多项选择问题。对于具身推理,作者将现有的数据集进行子采样并转换为作者用于SFT的数据集,涵盖不同具身形式的各种任务范围,包括人类、机器人手臂、类人机器人以及自动驾驶车辆。对于每个数据集,作者收集了两种类型的标注:理解与推理。

理解标注包含视频的问题和答案以及视频中状态和动作的详细描述(结构化视频描述)。推理标注包含给定文本 Prompt 下的长链推理(CoT)思考过程以及输入视频。此外,作者还进一步整理了一些特定的推理SFT数据集,以增强模型对时空视觉刺激(通过视频中的谜题和时间箭头)以及物体持久性的理解能力。这些数据集统称为直观物理。表4总结了作者用于物理AI SFT的数据集,图5展示了物理AI SFT数据集中视频帧的示例。接下来,作者将详细介绍具体设置的整理流程。

4.3.1. Physical Common Sense SFT

如前所述,为了获取物理常识,作者收集了包含自由形式问题和多项选择题(MCQ)的数据集。作者编纂物理常识数据的流程包括五个阶段:

人工在环视频策展。作者根据人类的偏好整理出一系列高质量的视频,并从中提取短片段作为训练样本。

详细描述生成。作者采用可靠的human annotators或预训练的视觉-语言模型(VLMs)来提取视频的详细描述。这些描述作为“caption”,作者利用它们构建视频片段的理解和推理标注。

构建问答对。作者促使大语言模型根据详细的视频片段描述生成自由形式的问题或多项选择题。作者构建了两种类型的问题:

(1)理解类问题,涵盖视频中(通过字幕观察到的)的内容;

(2)假设性的推理类问题,需要使用字幕中的信息来构造问题,但不能直接根据详细的字幕回答。推理类问题要求超出仅仅感知片段中的事件和物体的思考。作者的推理问题聚焦于常识推理、空间推理和时间推理。 Prompt A.1展示了用于生成推理问题的一个示例问题构建 Prompt 模板。

提取推理痕迹。为了获得完整的“推理”标注,作者 Prompt DeepSeekR1(DeepSeek-AI, 2025)使用详细的描述性说明作为上下文来回答推理子集的问题。然后,作者将 DeepSeek-R1 的回复解析为推理痕迹和答案。作者发现,提出无法直接从描述性说明中得出答案的问题非常重要。否则,DeepSeek-R1 可以直接从提供的描述性说明中检索答案,从而使推理痕迹无效,不适合用于模型训练。作者的“推理”标注包括推理问题、相应的视频片段、推理痕迹和答案。 Prompt A.2 展示了一个用于激发 DeepSeek-R1 推理的样例 Prompt 。

清洗与重写。最后,作者采用基于规则的方法对“推理”标注进行清洗和重写,以生成有效的样本用于指令跟随训练。由于作者将视频片段的视觉上下文压缩为文本,因此重写有助于去除训练样本中的不必要的引用,如“描述”或“字幕”。

使用上述Pipeline,作者编制了包含自由形式和多项选择问题的物理常识VQA数据集,并考虑了以下几点:

自由格式问题:作者从精心挑选的“高质量”片段集合中使用了9900个视频,并获得了由人类标注的相应详细描述。人工标注的字幕平均长度为297.4±46.4词。对于自由格式问题,作者通过上述 Pipeline 获得了约99千的理解SFT样本和约59.4千的推理SFT样本。

多项选择题(MCQ):为了确保作者的模型能够回答多项选择题(MCQ),作者另外收集了一组“理解”和“推理”类型的MCQ数据集,针对高质量精選片段。与开放式问题不同,作者首先使用视觉语言模型(VLM)为大约120万条高质量片段标注详细描述。利用这些描述,作者构建了大约240万条“理解”类型的MCQ。随后,作者选取约35.6万条片段,并使用详细的描述生成了大约60万条“推理”类型的MCQ。

4.3.2. Embodied Reasoning SFT

作者针对物理AI智能体决策制定的核心能力设计了一套具身推理强化学习数据整理Pipeline,并重点关注三个关键属性:(1)“任务完成验证”:确定某个任务或子任务是否已成功完成的能力;(2)“操作可行性”:评估执行特定操作或向目标推进是否可能的能力;以及(3)“下一步最有可能的动作预测”:识别最有可能推动向指定目标前进的下一项动作或子任务的能力。这些属性对于各种具身形式和任务配置中的有效决策至关重要。为了培养这些推理能力,作者从公共和专有数据集中筛选并整理了SFT样本。作者使用的具身推理SFT数据集包含结构化的条目,具有四个组成部分:视觉描述、问题、相应的答案以及详细的推理追踪。

演示物理AI智能体执行目标导向任务的视频构成了作者主要的具身推理数据来源。作者从包含人类、机器人或车辆执行特定任务示例的来源中收集SFT数据。对于具身推理,作者专注于与作者关注的关键属性相关的短期推理——确定一个智能体是否能够在给定目标的情况下(判断可行的操作或下一步子任务),思考立即接下来的子任务或动作,或者评估短期任务的成功完成情况(验证任务完成)。由于现有的物理AI演示数据集可能缺乏提取局部化动作或子任务序列所需的密集标注,作者采用了一系列专门步骤来提取这些片段。作者确保策划的数据集在多样性和短期推理粒度(即立即接下来的动作或立即接下来的子任务)、具身体现和推理 Prompt 方面丰富。作者使用的策划流程包括以下几个一般步骤(如图6所示):

提取短时间窗片段。由于作者关注的是短时间窗的推理任务,作者将长视频演示拆分成专注于短时间窗推理任务的简洁片段。这些片段捕捉单一动作(例如,“向左移动”)或独立子任务(例如,“打开冰箱门”)。如果现有数据集已经提供了适当分段的片段或时间戳,作者将直接利用它们。否则,作者将利用动作原语和计划等互补标注来提取这些短时间窗片段。

标注状态-动作上下文。对于每一个短时域片段,作者使用VLM生成结构化的描述,详细说明当前存在的物体、它们的属性以及相关的动作。当数据集提供了能够提升此类结构化描述质量的补充标注信息时,作者将这些信息融入到VLM Prompt 中。这些构成了作者用于具身推理SFT的“理解”标注。对于自动驾驶车辆数据,作者直接使用人工标注的描述。

构建推理QA配对。作者开发了专注于作者感兴趣的关键属性的推理问题-答案配对,基于可用的子任务和动作注解。对于已经包含适合解决作者目标属性的QA配对的数据集,作者在将其加入作者的情景智能体强化学习数据池之前,仅进行最少的基于规则的预处理。

提取推理轨迹 - 作者使用 DeepSeek-R1(DeepSeek-AI, 2025)生成作者的问答对的推理轨迹。由于 R1 缺乏视觉处理能力,作者构建了包含状态动作上下文、问题以及附加信息(例如子任务说明或总体目标)的 Prompt ,以激发合适的推理轨迹。图6 展示了这一过程,而 Prompt A.3 则展示了一个示例用户 Prompt ,它将视觉信息转化为关于“接下来最可能的动作”的短期问题的文本上下文。

清理与重写 - 最后,作者使用基于规则的方法进行清理和重写,以保留有效的推理轨迹。由于作者将视频片段的视觉上下文压缩为文本,因此重写有助于去除对“描述”或“标题”的无关引用。

每个数据集在策展Pipeline的具体步骤略有不同,但整体Pipeline保持一致。作者现在描述这个Pipeline在各个数据源中的应用方式。

BridgeData V2:BridgeData V2(Walke等,2023)旨在通过提供广泛的机器人操作行为来促进可扩展的机器人学习。该数据集强调基础的物体操作任务,如拾取和放置、推和扫,同时也涵盖了更为复杂的活动,例如堆叠积木和折叠衣物。BridgeData V2 包含了60,096条轨迹,其中包括50,365个远程操作演示和9,731个预设的拾取和放置演示片段,覆盖了跨越24种不同环境的13项独特技能。每个轨迹都标注有与机器人执行的任务相对应的自然语言指令。环境被分类为四个组别(玩具厨房、桌面、玩具水槽和其他),其中大部分数据是从七个独特的玩具厨房中收集而来,这些玩具厨房包括了不同的洗碗池、炉灶和微波炉的组合。首先,作者从数据集的“训练”分割中拆分视频,并获取了129.5万个视频片段。然后,作者使用视觉语言模型(VLM)对这些视频片段进行描述,生成理解标注。在描述 Prompt 中,作者还提供了从ECoT检测到的目标和行动序列(Zawalski等,2024)的额外信息。对于BridgeData V2,作者只生成“下一项最有可能的操作预测”相关的问答对,其中答案对应于行动本原,如向左移动。这些推理标注是由将描述和问题输入DeepSeek-R1生成的。

RoboVQA:RoboVQA(Sermanet等,2024)是一个大规模面向机器人的视觉问答数据集。该数据集包含视频、指令以及执行任务的智能体(机器人、人类、携带抓取工具的人类)的任务过程中的问题-答案对。RoboVQA包含六种不同类型的问题,涵盖了规划相关、任务完成验证、辨别性功能、生成性功能、过去描述和未来预测等方面(这些都与之前概述的属性相对应)。作者直接使用RoboVQA中的片段,无需剪辑,从而构建了一个包含约22万个片段的数据集。作者使用VLM为这些片段添加字幕,并通过将任务背景、字幕和问题结合成合适的用户 Prompt 来从DeepSeek-R1中提取推理痕迹。这导致了约93万个带有推理痕迹的问题-答案对。在清理后,作者筛选出一个合适的子集,并使用数据集“train”划分中的片段和问题-答案对进行强化学习(SFT)训练。RoboVQA用于SFT的样本涵盖了作者的实体推理编排 Pipeline 中所需的全部三种属性。

AgiBot: AgiBot World(AgiBot, 2024)是一个高保真机器人操作数据集。数据是在使用AgiBot G1硬件平台收集的,涵盖了广泛的实际任务。该数据集包含36个任务,每个任务包含多个根据环境和物体而变化的任务集。作者对每个任务进行了一部分任务集的子采样,总共产生了3,300个视频。每个视频都标注了整体任务信息以及多个子任务标注,包括起始帧和结束帧。作者利用这些动作标注来分割视频,最终形成了一个包含19,800个片段的数据集。这些片段通过视觉语言模型(VLM)进行标注,以将视觉信息转换为场景/物体描述及其运动。作者仅针对AgiBot生成“下一个最有可能的子任务预测”的问题,其中答案对应于一个具体的子任务(如将黄瓜放入袋子)。然后作者使用DeepSeek-R1基于生成的描述推理出完成任务所需的下一个可能的子任务。

HoloAssist:第一人称视角的数据集捕捉到关键的主观视角,提供了对人类行为的自然和沉浸式理解,但同时也带来了独特的挑战,包括相机运动、微妙的动作、遮挡、视域之外的目标、空间视角问题以及对全局场景理解的需求。尽管存在这些挑战,这类数据集仍然对于开发物理AI系统中的身体化决策能力具有重要价值,可能使物理AI能够在现实世界环境中实现类似人类的解释和响应能力。作者选择基于HoloAssist(Wang等,2023),它包含了166小时专注于物体中心操作任务的第一人称视频。值得注意的是,HoloAssist独特地包含了人类犯的错误及其纠正步骤。这些见解可以帮助物理AI以类似于人类学习的方式进行学习,并通过在现实世界中与物体互动来完善其理解能力。利用HoloAssist中的带时间戳粗粒度和细粒度动作标注,作者将1,758个视频分割成最终包含139,653个片段的dataset。作者采用了一种视觉语言模型生成标题标注。仅为HoloAssist产生“下一个最有可能子任务预测”的问题,答案对应于一个子任务。作者使用DeepSeek-R1根据生成的标题预测完成任务所需的下一个可能子任务的推理过程。在每个Pipeline中,作者提供任务标注作为总体目标,细粒度标注作为当前子任务,以补充标题生成。

自主驾驶车辆(AV):作为物理AI的关键领域之一,自主驾驶车辆(AV)依赖大量高质量的数据以实现安全可靠的自动驾驶体验,特别是在端到端系统迅速扩展的时代。在本文中,为了避免描述幻觉,特别是在细微行为和复杂交互方面,作者利用了由人工高质量标注的专有数据集。作者的数据集包含约12,400个视频,每个视频时长为20秒,总计约70小时。每个描述包括三个类别:(1)一般描述,详细说明了自我行为、环境条件(例如场景类型、时间、天气、路面状况),以及关键目标(例如车辆、行人、骑行者、交通灯、交通标志);(2)驾驶难度,基于所需的驾驶员注意力水平和情境的独特性或风险程度提供了简要的驾驶复杂性评估;(3)注意点,强调了值得注意的事件,如标志和信号、道路使用者互动以及异常行为。通过利用这些描述,作者将驾驶视频转换为结构化的描述。随后使用DeepSeek-R1生成推理轨迹,根据这些结构化描述预测最有可能的即时行动。

4.3.3. Intuitive Physics SFT: Spatial Puzzles, Arrow-of-Time and Object Permanence

尽管前期的微调阶段能够支持物理AI应用中的领域特定推理,作者还引入了额外的微调阶段来培养围绕直观物理学的基本推理能力。虽然直观物理学的推理能力涵盖了广泛的分类(参见表1),但作者专门关注三个关键方面:通过空间谜题进行的空间连续性推理(spatial continuity reasoning)、通过视频中事件的时间顺序进行的时间箭头推理(arrow of time reasoning),以及通过基于模拟的任务评估物体持久性的物体性推理(objectness reasoning)。这些任务本质上是自监督的,这简化了数据收集过程。尽管在更复杂的任务上取得了显著进展,但当前最先进的视觉语言模型在这些更简单的基础推理目标上仍然表现不佳。为了弥补这些不足,作者专门收集了针对空间连续性、时间箭头和物体持久性的微调数据集。

关于空间连续性的推理:空间拼图。除了空间关系的理解外,掌握空间连续性对于物理AI任务至关重要。为了赋予作者的模型对空间连续性的基本理解,作者进一步在解决空间拼图的任务上进行微调。具体地,作者收集了3000个包含多样背景、动作和相机姿态的视频片段。对于每个视频片段,作者提取第一帧并将其划分为的patches。然后,作者将这些patches进行重新排列以形成一个新的片段序列,其中一帧就是一个patch。作者 Prompt 模型识别每个patch相对于原始帧的位置,包括左右上下四个方位。为进一步增加任务的复杂性,作者在每个片段中引入了7张额外的干扰图像,每张干扰图像也划分为的patches。这意味着每个样本总共会有32张重排后的图像供模型推理正确的相对位置。此外,作者还设计了几项“身份”导向的辅助任务——确定哪两帧或三帧源自同一幅与初始帧相同的图像。类似于对比学习,这一任务要求模型发展强大的空间推理能力,并区分相关和不相关的样本,现在是在推理的基础上进行区分。

为了生成高质量的空间连续性推理数据,作者首先使用VLM对每一个32个Patch进行标注,并将这些描述输入到DeepSeek-R1中以解决三个任务之一。作者只保留R1做出正确预测的样本。每一张3000张图片会被多次处理,伴随着不同的干扰物和混合顺序。经过筛选后,作者的最终数据集包含10,000个视频。 Prompt A.4展示了一个用于激发推理痕迹的示例 Prompt 。

时间推理:时间箭头(AoT)。就像空间一样,作者也赋予作者的模型关于时间进行推理的能力,特别是宏观尺度上事件的时间顺序。作者希望作者的模型能够理解,在宏观尺度上时间是不可逆的,这一点可以通过视频中的运动和活动模式来感知。能够推理出单向的时间箭头对于Physical AI来说至关重要,因为这与熵、重力以及因果关系等基本物理现象紧密相关。此外,时间改变或倒序的视频中包含违背物理现象的现象,一个具备推理能力的Physical AI应该能够识别这些现象。

作者构建了一个包含30,000个短视频片段及其反转版本的数据集,并使用了Agarwal等人(2025)训练数据集的部分视频。这一部分包含了许多多样且复杂的任务,其中经常涉及显著的运动。作者优先选择包含大量运动的视频,因为这些视频是最具代表性的例子,有助于区分时间的方向。与之前的阶段不同,作者直接使用VLG从正向和反向播放的片段中提取推理过程。作者发现,采用第4.3.2节的方法对思考过程提取效果不佳。为了改进筛选过程,作者在用户 Prompt 中明确指示视频是正向播放还是反向播放,从而帮助VLG生成更合理的解释。此外,作者精心设计了 Prompt ,以确保两种播放方向的推理过程在风格和长度上保持一致。示例 Prompt 模板如Prompt.A.5所示。为了增加推理的多样性,作者分别为每个正向和反向视频策源两个不同的推理过程。

关于物体性的推理:物体恒常性。尽管空间连续性和时间顺序为理解物理关系和序列提供了基础,而物体恒常性——即理解即使物体无法直接观察到它们仍持续存在——代表了一种关键的推理能力,对于物理AI智能体来说至关重要。如果没有强大的物体恒常性推理能力,视觉语言模型(VLMs)在处理物体频繁进出视野或被遮挡的基本现实场景时将会遇到困难,严重限制了其在需要一致的目标跟踪和预测能力的物理AI应用中的实用性。

对于物体恒常性,作者构建了一个包含10,000个由Libero(Liu等人,2023年)机器人仿真平台合成片段的SFT数据集。Libero提供了涵盖多种环境、桌面物体以及预录制的臂部动作序列的130项机器人臂操作任务。为了增强场景多样性,作者从这些任务中随机选取设置,并应用物体置换和扰动。

相机定位以面对桌子中心,并通过在球面上随机选择起始和结束点来环绕场景。在播放预录制的臂部动作时,相机会平滑地从起始点过渡到结束点,然后再接近其初始位置。在整个过渡过程中,某些物体可能会暂时被遮挡,一旦完全被遮挡,某些物体可能会被随机从场景中移除。作者向模型提供适当的上下文并要求其分析每一个片段,判断是否有物体意外消失,违反了物体恒常性。为了确保模型生成的推理路径能够一致地得出正确答案,作者在 Prompt 中提供了哪些物体消失且不再出现的指示。

然而,在最终的SFT数据集中,这些 Prompt 被从 Prompt 中移除。对于物体恒常性,作者发现将视觉上下文压缩成标题的标准Pipeline方法在提取有用的推理路径方面效果不佳。为此,作者从Cosmos-Reason1-8B的中间版本中提取了思维路径。Prompt A.6展示了用于从Cosmos-Reason1-8B中引出推理路径的一个示例 Prompt 。

4.4. Physical AI Reinforcement Learning

在微调过程中建立了基础的物理常识和具身推理能力之后,作者通过训练后的强化学习进一步增强这些能力。这种方法需要有效的奖励机制,作者采用DeepSeek-AI(2025)中经过验证的基于规则和可验证的奖励机制来实现。与数学和编程等LLM领域中精确定义正确答案和格式的情况不同,物理常识和具身推理通常涉及自由形式的、开放式的回应,这使得奖励的分配更加复杂。

为了应对这一挑战,作者将推理SFT数据源中的样本(不包括思维轨迹)转换为具有单个正确答案的多项选择题(参见表5中的样本数量)。这种转换本身使响应的简单、基于规则的验证成为可能。作者的RL后训练数据集包含了所有物理AI SFT数据源的样本,其中某些子集——特别是空间谜题、AoT和物体持久性数据——已经以二进制问题格式存在,因此可以直接作为多项选择题使用而无需修改。作者手动验证用于RL后训练的样本质量。作者将在下文中详细描述各个数据源的具体特点。

物理常识强化学习数据。作者收集了来自1989个视频的5133个人标注的二选一和多项选择问题。为了帮助控制问题的难度,作者使用标注的问题来评估包括GPT-4o、Gemini Flason 2.0、Qwen2.5-VL-7B以及作者的8B模型在内的四个模型。基于评估结果,作者将收集的数据进一步划分为两个子集:(1) 容易子集,其中所有模型均正确回答了这些问题;(2) 困难子集,其中至少有一个模型未能正确回答这些问题。

具身推理RL数据。作者从每种具身推理数据源中选择200-250个SFT样本,并将其转换为多项选择题(MCQ)。为了确保高质量的RL后续训练,作者仔细验证这些样本不含答案和指令的歧义性,同时在MCQ选项中保持均衡分布,以防止潜在的奖励作弊。这个过程需要一些人工干预,特别是在非二元问题上,作者需要选择合适且显得合理的干扰选项,但又是明显错误的。人类在环是保证题目质量所必需的,这使得生成大量规模的MCQ数据用于训练变得困难。

直观物理RL数据。如前所述,作者自监督的直观物理SFT数据在设计上自然以MCQ格式存在,这使其能够生成多样化的题目并实现扩展。为了这些任务,作者实施了额外的质量保证措施,确保所有样本中选项分布平衡。作者在生成过程中仔细避免与SFT期间使用的片段重叠,以防在RL后训练阶段过早饱和。对于RL后训练阶段,作者精心筛选并收集了涵盖空间连续性、时间箭头和物体恒存等任务的24079个高质量样本。

5. Benchmark

作者将在一个专门针对测量物理常识和体态决策推理能力的基准上,将作者的训练模型与其他同类模型进行比较。在本节中,作者将讨论构建常识和体态推理基准的过程(参见表6)。作者通过提出基于视频背景的二选一的“是”或“否”问题或多选题(MCQ)来评估模型。作者注意到,作者的基准要求通过推理得出正确答案,并且作者仅衡量最终答案的准确性。作者将在未来的工作中量化思考过程的质量评估。

5.1. Physical Common Sense Reasoning

作者根据第2.1节中定义的本体论手工整理了一系列关于互联网视频片段的问题,构建了一个物理常识推理基准。最初收集了5737个问题,包括2828个二元问题和2909个多选问题。图7展示了根据作者的本体论的问题类别分布。随后,作者经过手动筛选,从使用的426个视频片段中选择了604个问题作为物理常识基准,其中336个是二元问题,268个是多选问题。在这604个问题中,有80个(占13.25%)涉及空间问题,298个(占49.33%)涉及时间问题,226个(占37.4%)涉及基本物理学。

5.2. Embodied Reasoning

类似于作者为具身推理编撰的数据处理Pipeline,作者将具身推理基准限定在之前概述的属性范围内——(1) “任务完成验证”:评估任务或子任务是否已成功完成的能力;(2) “操作可行性”:判断执行特定动作或向目标进展的可能性;以及(3) “下一个最有可能的操作预测”:识别最有可能推进向指定目标前进的下一步操作或子任务。作者以多项选择题(MCQ)的形式展示作者的具身推理基准样本,以便对模型进行自动评估。为了确保基准能够有效衡量具身推理能力,作者采取了几个关键步骤。

统一的问题模板。作者采用统一的提问格式以确保推理基于视觉输入而非文本 Prompt 。这种方法也有助于统一动作的粒度并减少不同数据集之间的歧义。

统一的动作粒度。作者特别关注动作的粒度问题。在预测下一步立即执行的动作时,可能存在多个正确的选择。例如,“浇灌植物”这一动作可能包括“拿起浇水壶”、“移动浇水壶”和“倾倒浇水壶”等步骤。然而,这些步骤又可以进一步细分为更精细的子动作,比如“向左移动”或“倾斜下倾”。为了应对这一复杂性,作者采用了一种动作层次结构(Belkhale等人,2024):作者将原子级动作定义为“动作”,较粗粒度的动作定义为“子任务”,而数据集特定的任务则定义为“目标”。

手工精修。除了采用系统性方法解决歧义问题外,作者还手动修改了多项选择题选项。这些修改有助于解决过于相似的选项问题,通过防止答案仅从文本中推理出来以强化视觉推理,并强调整个片段的完整上下文而非仅仅早期帧的内容。

RoboVQA:作者从经过处理的RoboVQA样本中“val”分割(未纳入SFT训练集)中抽取101段视频片段用于基准测试。为了进行基准测试,作者仅考虑与验证任务完成情况(是否成功遵循了提供的指令)或可行性(是否有可能遵循某个指令/完成某个任务)相关的视频片段及对应的问答对。这些问题被作为多项选择题的形式呈现,答案为“是”或“否”。

RoboFail:除了RoboVQA,作者还手动从RoboFail(Liu等,2023)数据集中挑选并标注了100个例子,以创建一个更难的“行动容许性”和“任务完成验证”评估集。这些样本的难度取决于以下几点:(1) 对高度观察性和全面时间上下文处理的需求;(2) 识别物理约束阻碍行动连续性的问题(与RoboVQA不同,在那里由于感知不匹配或无关指令导致无法完成行动);以及(3) 能够对复杂问题进行推理的能力。

BridgeData V2: 作者将BridgeData V2的“val”分区的视频按照与训练集相同的方式划分为片段。然后,作者从中抽取100个片段,创建了100组多项选择问答对作为基准数据集。在每个问题中,作者提供了机器人夹爪在该片段中被指示执行的任务,并要求根据视频中机器人已进行的操作,推测最有可能的下一个立即行动是什么。

AgiBot:作者从处理过的AgiBot SFT数据中抽取100段剪辑,生成100组多项选择题与答案对。对于每一段剪辑,作者额外提供了任务信息,并询问在给定的子任务序列中,哪一个子任务是最有可能成为机器人接下来工作目标的子任务。作者从该剪辑完整轨迹的子任务序列中随机选取选项。值得注意的是,这些轨迹并未包含在训练集中。

HoloAssist: 作者从处理过的HoloAssist SFT数据中抽取100段视频片段,生成100组多项选择问答对。对于每一段视频片段,作者还提供粗粒度的动作标注作为总体目标,并要求指出给定的子任务中最有可能的下一个子任务。作者从同一粗粒度动作下的其他细粒度动作标注中随机选取选项。为了防止场景泄露,总共有34个包含这些片段的视频(总共1758个视频)被排除在训练集之外。

AV: 作者从自有数据中精选了100个视频,构建了100个多选题问答对。这些视频展示了多样化侧向和纵向行为,以及丰富的互动。问题的设计旨在:(1) 预测 ego 车辆接下来最有可能采取的动作;(2) 验证之前执行的动作是否已完成;以及 (3) 评估特定动作在给定场景中的可能性。请注意,这些基准数据样本未包含在训练集中。

6. Experiments

在本节中,作者阐述了对Cosmos-Reasonl进行物理AI监督微调和物理AI强化学习的实验设置,并讨论了在基准测试上的评估结果。

6.1. Physical AI Supervised Fine-Tuning

作者首先采用NVLM (Dai等,2024) 提出的预训练和通用监督微调策略来获得8亿参数和56亿参数的主干模型。Physical AI SFT则基于这些主干模型进行微调。对于CosmosReason1-8B,作者进行了4万次迭代的训练,学习率为,随后进行了4万次迭代,学习率衰减至。对于Cosmos-Reason1-56B,作者进行了3万次迭代的训练,学习率为,随后进行了2万次迭代,学习率衰减至。

对于两种模型,作者都使用了全局批量大小32和融合Adam优化器,其中,权重衰减率为0.1。在训练过程中,作者遵循平衡数据采样策略,确保SFT过程中没有特定领域的数据被过度代表。除非另有说明,对于作者的模型,作者报告的是温度设为0.6,top-p设置为0.95的不同随机种子下五次推理的平均准确性。对于评估其他模型,作者采用了零样本的链式思考 Prompt 方法(Kojima等,2022),通过调用其APIs(如GPT-4o,OpenAI o1,Gemini 2.0 Flash)或使用其开源模型预训练权重(Qwen2.5-VL)来进行。

6.1.1. Physical Common Sense Results
6.1.2. Embodied Reasoning Results

与各自的 Backbone 大语言模型相比,性能提升了超过10%。实验结果表明,作者的物理AI微调方法在增强模型的物理AI体现推理能力方面效果显著。

6.1.3. Intuitive Physics Results

尽管视觉语言模型(VLMs)常被视为能够在某些领域达到超人类表现的专家,但作者的研究揭示了许多模型在基本物理推理方面存在困难。为了测试模型理解直观物理的能力,作者为三个任务——时间箭头、空间谜题和物体持久性——每个任务收集了100个视频,并根据第4.3.3节中的Pipeline生成了100道问题。作者进行了数据去污染处理,以确保测试数据与训练数据无交集。作者评估了模型在这份精心挑选的测试集上的性能。

6.2. Physical AI Reinforcement Learning

作者使用简单的基于规则且可验证的奖励对模型进行后训练,进一步增强其物理AI推理能力。为此,作者构建了自己的 reinforcement learning (RL) 基础设施,并使用该基础设施对模型进行后训练,使其能够处理与物理常识、具身以及直觉物理推理相关的任务。首先,作者将描述所构建的基础设施;然后总结作者的实验发现。

6.2.1. Infrastructure

为了支持大规模多样化模型架构的后训练,作者构建了一个自定义的强化学习框架。类似现有的veRL (Sheng等,2024) 和OpenRLHF (Hu等,2024)框架,作者利用了Ray的分布式计算能力(Moritz等,2018),这使得复杂的计算流程在资源管理方面更为简洁高效。虽然作者也采用了这些框架的基于阶段的方法——每个阶段包含多个智能体——但作者采取了更为模块化的设计,专注于智能体协调。

这种刻意的设计选择赋予用户完全自由来实现特定于模型的代码,包括训练、权重同步和批处理推理。最终的架构提供了高度的灵活性,并且框架代码得到极大简化,易于根据具体项目需求进行定制。为了最优化资源利用率,作者借鉴了Xiao等(2023)提出的异构分解策略,实现了渐进式批处理方法,确保持续高的计算吞吐量的同时最大限度减少GPU空闲时间。

作者采用GRPO(Shao等,2024)作为作者的强化学习算法,因为它简单且计算效率高,无需训练和维护单独的批评家模型。GRPO使策略优化过程更为简化,其中优势函数通过归一化每个 Prompt 生成的一组响应中的奖励来计算。令表示组中响应的奖励,则计算得出的优势可以表示为:

强化学习迭代分解。作者在基础设施中的每个强化学习迭代都遵循一个精简的过程:一个“数据加载器”准备文本 Prompt 和视觉数据,而“展开”阶段则高效地使用vLLM(Kwon等,2023)生成响应,尽管作者的框架支持其他推理引擎。

作者的“奖励”模型评估每个响应并计算标准化优势项,同时与一个冻结的参考模型协同工作,提供对“策略”模型进行稳定化的对数概率。在训练过程中,作者结合这些组件的信息来更新策略模型,之后通过NCCL协议使训练工作者同步权重至展开工作者,从而最小化通信开销。

6.2.2. Experiment Setup

作者采用两种基于规则的奖励来优化作者的模型,使其能够进行准确的物理智能推理:

在训练过程中,作者以相同的概率从每个强化学习数据集中采样,确保不同领域有均衡的表示。作者也实时动态地重新排列多项选择题选项,以促进泛化能力。作者使用全球批大小为128个问题,对每个问题作者采样9个输出,每个输出的最大长度限制为6144个Token。作者将学习率设置为,KL惩罚项系数设为0.005,并训练模型500个迭代周期。

6.2.3. Physical Common Sense and Embodied Reasoning Results

对于物理常识和实体推理而言,作者发现Physical AI RL的后训练在大多数基准组件上均提高了性能,唯一的例外是RoboFail。实验结果汇总在表9中。在RoboFail上的性能在整个SFT和RL阶段都保持着持续的挑战性。这不足为奇,因为RoboFail特意设计为一个手工精选的基准测试,其中包含了许多现实世界中的复杂场景,用于测试“操作可能性”和“任务完成验证”。该基准测试的难度源自多个因素:一是需要高度观察力感知或全面的时间上下文处理的样本;二是执行操作时涉及复杂的物理约束条件的问题,这与RoboVQA中的问题不同。

作者主要将RoboFail性能停滞归因于缺乏足够的代表性训练数据。这一假设通过检查微调和后训练模型的具体错误模式得到了支持,这些错误模式包括:对复杂可用性场景推理不足、未能充分注意到关键视觉细节以及在遇到细微分布外问题时过度思考。作者认为,在类似代表性样本上进行有针对性的训练将显著提高在这一具有挑战性的基准上的表现。为了进一步发展实体推理能力,作者在评估套件中特意保留了RoboFail作为有价值的指标。

有趣的是,作者发现通过强化学习,作者的模型学会了仔细评估提供的选择,在问题模糊不清时拒绝这些选择。如图8所示,当出现模糊情况时,模型会评估每个选择的可行性,并采取一种保守行动,这种行动不在提供的选择之列。

6.2.4. Intuitive Physics Results

与自监督学习类似,直观物理的一个关键优势在于数据扩展的简便性。生成时间箭头训练数据只需简单的视频反转即可,空间谜题可以应用于任何图像以创建复杂的空间连续性问题,而物体恒常性可以在任何模拟环境中轻松实现。此外,这些数据源可以无缝适应具有可验证奖励的RL训练。通过这种方法,作者成功创建了一个比常识和具身推理任务更大的RL数据集,且几乎不需要人力投入。

通过物理AI强化学习(Physical Al RL),作者发现模型进一步发展了在空间、时间和物体持久性方面的推理能力。图9展示了Cosmos-Reason1在RL前后如何推理时间的差异。该模型能够识别反物理运动——例如,粉末违背重力上升到碗中,同时不受视频中静止干扰物的影响。这表明其推理超出了简单的感知范围。同样,在图10中,没有RL的模型往往将空间问题与时间推理混淆。虽然它们能够察觉第二帧与第一帧不相似,但内在偏见使其默认遵循视频顺序,表明它们更多依赖时间线索而非真实的空间理解。利用空间谜题的RL使模型能够从第一帧中提取关键特征,并系统地在多帧之间进行比较,从而准确确定空间关系。最后,图11显示,即使经过长时间的CoT,没有Physical AI RL的模型在物体持久性方面仍存在问题,经常在其推理过程中混淆自己关于物体出现和消失的情况。相比之下,RL模型能够通过直接且简洁的推理迅速得出结论。

7. Related Work

7.1. Foundation Models for Physical AI

早期将大型预训练模型集成到具身智能体中的方法主要依赖于使用现有的大语言模型(LLMs)和视觉-语言模型(VLMs)作为静态模块。例如,利用LLM进行零样本任务规划的研究(Li等,2022;Song等,2023;Huang等,2022;Ahn等,2022)直接从预训练的LLM中提取自然语言的高级动作计划,无需额外的微调,展示了LLM在跨机器人任务上泛化的能力。类似地,Code as Policies(Liang等,2022)扩展了LLM生成结构化代码以控制机器人的用途。然而,这些预训练模型,特别是VLMs,并未专门设计用于物理互动,因此往往缺乏对物理常识的理解,导致生成的计划和执行效果欠佳。

另一条研究路线专注于直接训练端到端的视觉-语言-动作(VLA)模型,用于具身智能体(Brohan等人,2023;Driess等人,2023;Kim等人,2024;Yang等人,2025;Gemini Robotics团队,2025)。他们通常从一个预训练的视觉-语言模型开始,并通过机器人数据对模型进行微调以生成具身动作。这一方法在提高跨机器人任务的泛化能力和鲁棒性方面已显示出显著前景。值得注意的是,这些方法中的一个子类别引入了层次化策略表示,将高层次的语言驱动规划与低层次的动作执行分开(Shi等人,2025;Li等人,2025)。这类系统通常使用高层次的VLM解析自然语言指令并生成计划,而低层次的VLA则执行精细的运动控制。这些层次化的架构能够改善任务和分解性能。

近年来,人们致力于增强实体AI的推理能力。其中一个方法是实体链式思考(Chain-of-Thought,CoT)框架(Zawalski等人,2024),该框架使机器人智能体能够在执行动作之前通过顺序决策进行推理。这与更广泛的AI趋势一致,即明确的推理机制能够提高可解释性和适应性。同样地,Liu等人(2023)、Elhafsi等人(2023)介绍了用于解释和纠正失败的方法,这些方法也按步骤进行推理。虽然这些方法提高了实体AI的认知能力,但大多数仍依赖手动 Prompt 来构建其推理过程,从而限制了它们的自主适应能力和泛化能力。

除了机器人领域,VLA模型还应用于其他物理载体,例如自动驾驶。例如,CoVLA(Arai等人,2024)引入了一个大规模的视觉-语言-动作数据集,专门用于自动驾驶应用,促进了自主系统中多模态决策制定的研究。

7.2. Vision Language Models

该领域在构建视觉语言模型方面取得了显著进展。 prominently 代表性的模型包括 Flamingo(Alayrac 等,2022 年),LLaVA(Liu 等,2023 年),InternVL(Chen 等,2024 年),QwenVL(Bai 等,2025 年),NVLM(Dai 等,2024 年),以及 Llama-3.2-Vision(Grattafiori 等,2024 年)。这些视觉语言模型通常采用两种常见的架构之一:解码器架构,如 LLava(Liu 等,2023 年)和 InternVL(Chen 等,2024 年)中所示,将图像 Token 整合到大语言模型(LLM)的自注意力层中;跨注意力架构,如 Flamingo(Alayrac 等,2022 年)和 Llama-3.2-Vision(Grattafiori 等,2024 年)所展示的那样,在大语言模型的交叉注意力层中处理图像 Token。Dai 等(2024 年)在最先进的设置下比较了这两种架构,并发现解码器架构在包含视觉上下文的大学水平多学科知识和数学推理任务中表现出更强的推理能力。基于此,作者采用解码器架构来开发 Physical A1 的推理模型。

7.3. LLMs and VLMs with Reasoning Capabilities

早期的研究表明,大语言模型(LLMs)在数学(Cobbe等人,2021)、编程(Chen等人,2021)和一般推理任务中表现出基本的推理能力。通过链式思考 Prompt (Wei等人,2022),这些能力可以进一步增强。最近,OpenAI(OpenAI,2024;Jaech等人,2024)展示了大规模强化学习可以显著提升大语言模型在编程和数学中的推理能力。值得一提的是,开源项目DeepSeekR1(DeepSeek-AI,2025)已经向社区分享了其训练方法,提供了构建高性能推理模型的重要见解。然而,现有的研究主要集中在与编程、数学和STEM领域相关的推理任务上(Liu等人,2024),即使是在多模态推理环境中也是如此(Qwen-Team,2024)。近年来,在将R1的推理能力整合到多模态视觉语言模型(VLMs)中的努力有了显著增加(Liu等人,2025;Zhou等人,2025;Zha0等人,2025;Huang等人,2025;Haonan Wang,2025)。在本文中,作者探讨了物理智能体中的推理能力。

8. Conclusion

在本研究中,作者提出了Cosmos-Reason1,这是一个专门用于物理世界理解和推理的多模态大语言模型家族。为了使该模型适应物理AI,作者定义了本体来封装物理AI模型的基础能力,并相应地构建了关于常识和实体推理的监督微调数据集和基准测试。作者进一步探索了物理AI强化学习(RL)的概念,通过构建基于规则、可验证的奖励来提高模型的空间、时间和直观物理方面的推理能力。

实验结果显示,物理AI微调(SFT)能够使基础视觉语言模型(VLM)在提出的物理常识和实体推理基准测试中的性能提高超过10%。物理AI强化学习(RL)进一步提升了准确性超过8%。借助物理AI微调与强化学习,Cosmos-Reason1能够学习诸如时间箭头和物体恒久性等直观物理知识,而这一直是现有模型的难点。作者将开源作者的代码并开放模型权重,以加速建立理解并执行物理世界复杂任务的物理AI系统的研究进程。

参考

[0]. Cosmos-Reason1: From Physical Common Sense To Embodied Reasoning .

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。原始发表:2025-04-17,如有侵权请联系 cloudcommunity@tencent 删除数据性能机器人模型视频

本文标签: Cosmos