当AI"脑补"的机器人视频真的能驱动机械臂干活,会发生什么?

📍 18.97.14.90
📱 CCBot/2.0 (https://commoncrawl.org/faq/)
🔗 /show/wxa.html
📄 这项由新加坡国立大学Show Lab、牛津大学与腾讯联合推进的研究,以预印本形式于2026年6月发布,论文编号为arXiv:2606.04811,有兴趣深入了解的读者可通过该编号查询完整原文。 近年来,AI生成视频的能力突飞猛进。Sora、Kling、Veo这些名字频繁出现在科技新闻里,它们能生成流畅逼真的视频,让人叹为观止。但在一片叫好声中,有一个问题始终没人认真回答:这些视频里的"物理规律"到底靠不靠谱?换句话说,AI画出来的机械臂抓东西,如果真的让一台真实的机器人去照着做,它能成功吗? 这就是Dream.exe这套评测框架要回答的核心问题。研究团队把机器人操作任务当成一块"试金石"——如果一个视频生成模型真的理解了物理世界,那么它生成的机械臂运动视频,应该能被转化成可执行的机器人动作,并且在物理仿真器里完成任务。反过来,如果视频看起来很漂亮、很流畅,但机器人照着做却频频失败,那就说明这个模型不过是在"画大饼",并没有真正理解物理规律。 整个框架的逻辑就像是一场"纸上谈兵变实战演练"的考核:AI负责"出战术"(生成视频),研究团队负责把战术翻译成具体行动(轨迹提取),然后让机器人真刀真枪地去执行,最终看任务完成率。这比以往只看视频好不好看、评委打几分的评测方式,要严格得多,也真实得多。 一、为什么"看起来好"不等于"做起来对" 在Dream.exe出现之前,视频生成领域的评测体系有一个根本性的盲区。现有的主流评测工具,比如VBench、EvalCrafter、T2V-CompBench,都是在问"这个视频好不好看"——画面清不清晰、时间连不连贯、内容和描述对不对得上。这些问题当然重要,但它们完全回避了一个更深层的问题:视频里面的运动,符合物理规律吗? 以前,研究者们也有一些尝试。VideoPhy和PhyGenBench会用AI评委或者人类评分员来判断视频里的物理现象是否合理,比如水有没有往上流、球有没有凭空悬浮。WorldSimBench更进一步,试图通过一个学出来的策略来判断视频能不能支持下游任务执行。但这些方法都没有真正"闭环"——它们顶多是请了一个看过很多视频的评委来打分,而不是让机器人真正去执行,然后看结果。 Dream.exe做了一件很直接的事:把评判权交给物理仿真器。不管视频有多漂亮,最终的裁判是:机器人照着做,任务完成了吗?这是一个客观、可量化、不受主观偏见影响的标准。 这个逻辑背后有一个重要预设:如果一个视频生成模型真的从海量互联网数据里学到了物理规律,那么它生成的机器人操作视频,里面蕴含的运动信息应该是"可执行"的。反之,如果模型只是学会了"什么样的画面看起来像机器人在干活",而没有真正理解接触力、物体重力、抓握时序这些底层物理概念,那生成的视频就会在仿真器面前原形毕露。 二、101道"考题":从推抽屉到多步骤组合任务 Dream.exe的任务集建立在RoboCasa365这个大规模仿真框架之上,该框架包含365个日常操作任务。研究团队没有直接拿来就用,而是做了大量的人工筛选和整理工作。有些任务视角太乱,机械臂被遮住了;有些任务物体不好识别;有些任务需要机器人底盘移动,目前的轨迹提取流程还支持不了。经过仔细筛选,最终留下101个任务,每个任务的摄像机视角都经过单独调整,确保物体和末端执行器(也就是机械爪)都清晰可见。 这101个任务被分成三个难度级别,就像游戏里的新手关、普通关和困难关。 第一级叫"单物体原子操作",共8个任务。每个任务只涉及一个物体,一个连续的动作,比如把左边的抽屉推关、把烤箱的托盘拉出来、把水龙头向左转。这一级考验的是:AI生成的视频,机械爪的运动轨迹几何上对不对,抓握和松开的时机准不准。 第二级叫"多物体交互",共42个任务。这时场景里有两个或更多物体,而且它们的状态是互相关联的。典型例子包括:把奶酪片放到面包上、把甜甜圈放进热狗盒子、把梨从台面移进榨汁机里。这一级要求AI不仅要对每个物体的位置有准确理解,还要正确表达物体之间的空间关系和操作的先后顺序。 第三级叫"多阶段复合任务",共51个任务,也是数量最多的。每个任务都包含两个或更多语义上截然不同的步骤,比如先打开抽屉再取出里面的东西,或者先转燃气灶旋钮再移动锅。这一级测试的是:AI能不能在一个较长的任务序列中始终保持物理一致性,正确地完成子目标之间的衔接和转换。 每个任务都配有统一的元数据,包括初始场景图像和文字描述的任务指令。这种标准化的设计保证了不同模型之间的比较是公平的——大家拿到同样的"考题",在同样的起始条件下作答。 三、八位"考生":从顶级商业模型到机器人专属系统 这次参与测评的模型分三大类,覆盖了当前视频生成领域的主要生态。 第一类是顶级商业闭源模型,共五个,代表着当前视频生成质量的天花板。它们分别是:MiniMax的Hailuo 2.3、快手的Kling 3.0、阿里巴巴的Wan 2.7、字节跳动的SeedDance 2.0,以及谷歌DeepMind的Veo 3.1。这些模型平时用来生成各类创意视频,是社区里引用最多、讨论最热的系统。把它们纳入测评,是为了回答一个核心问题:目前最好的视频生成器,是否已经具备了足够的物理理解能力来驱动机器人? 第二类是开源模型,共两个:阿里巴巴的Wan 2.2和Lightricks的LTX-Video 2.3。这两个模型完全公开,任何研究者都可以下载和复现。把它们加入测评,一方面是为学界建立一个可复现的基线,另一方面也能通过对比Wan 2.2和Wan 2.7,看看更大规模、更多专有训练数据能带来多大的提升。此外,研究团队还把Wan 2.2在RoboCasa365的非测试集任务上做了微调(分别训练了2000步和7000步),得到Wan 2.2-LoRA2K和Wan 2.2-LoRA7K两个变体,专门用来研究"在机器人视频上微调,能不能弥合通用视频和机器人操作之间的差距"。 第三类只有一个,但非常特殊:英伟达的Cosmos Policy。这是一个专门针对机器人操作任务训练的视频生成模型,它的输入不是单张图片,而是多视角图像(通常是三个摄像头的视角)。为了让比较更公平,研究团队测试了两个变体:CosmosPolicy-DefaultCam按照官方推荐的三摄像头默认设置运行,CosmosPolicy-BenchCam则把主摄像头换成Dream.exe为每个场景专门调好的那个视角,另外两个摄像头保持默认位置。纳入Cosmos Policy的目的非常明确:看看专门用机器人数据训练的模型,在物理可执行性上是否比通用视频生成器更强。 四、把视频变成机器人动作:五步"翻译"工程 这套框架里最有技术含量的部分,是把生成的视频翻译成机器人可执行动作的管线。这件事之所以难,是因为视频本质上只是一堆像素的变化序列,里面没有任何关于三维空间位置、接触力、夹爪状态的显式信息。研究团队开发了一条五步流水线来完成这个"翻译"工作。 第一步是区域初始化。在视频的第一帧,系统需要找到机械爪和被操作物体分别在哪里。如果能从仿真器直接拿到实例分割掩码,就直接用;如果没有,就用Grounding DINO(一个开放词汇的目标检测器)加上SAM2(一个通用的图像分割模型)来自动识别和标注。 第二步是二维点追踪。在第一步确定的区域内,系统会采样一批关键点,然后用CoTracker这个追踪工具,把这些点在视频的每一帧里的位置都追踪出来。CoTracker会输出每一帧里每个点的像素坐标,以及这个点是否还在画面里可见。 第三步是深度估计和三维还原。二维追踪只知道点在画面上的位置,但机器人需要知道点在三维空间里的坐标。为此,研究团队使用了一个叫DVD的深度估计模型,并对它进行了LoRA微调——用机器人仿真器渲染的视频来训练,让它更擅长估计机器人操作场景的深度。估计出来的深度是相对深度,需要用第一帧的仿真器真实深度来做绝对尺度校准,才能把二维追踪点还原成三维世界坐标系里的轨迹。 第四步是末端执行器轨迹提取。有了机械爪的三维追踪轨迹,还不能直接用,因为视觉上看到的机械爪中心,和机器人控制器真正控制的那个点(叫做工具中心点,TCP)不是同一个位置。研究团队开发了一个校准模块,用初始状态下两者的位移关系来做修正,把视觉轨迹转换成控制器轨迹。与此同时,也用Kabsch算法从追踪到的三维点集里估计出每一帧的末端执行器朝向。 第五步是夹爪动作推断。机器人不只要知道爪子往哪移,还要知道什么时候夹紧、什么时候松开。这个信息没法直接从像素里读出来,所以系统通过分析末端执行器轨迹和被操作物体轨迹之间的相对运动来推断。如果两者同步运动,说明爪子夹住了物体;如果物体静止而爪子在动,说明爪子是空的。对于有任务标注的任务,系统还会利用先验知识来约束夹爪事件的数量和顺序——比如"抓放"任务必然包含一次夹紧和一次松开。对于多阶段任务,每个阶段分别处理后再合并成完整的夹爪时序。 把以上五步的输出合并起来,就得到了一个七维的动作序列:三维位置、三维朝向、加上夹爪的开合状态。这个序列随后被送入MuJoCo物理仿真器,通过robosuite框架控制一台Franka Panda机械臂去执行。执行时有一个闭环修正机制:在每个检查点,系统会对比机械爪的实际位置和目标位置,如果偏差超过5毫米或0.03弧度,就自动施加修正动作,避免误差累积。 五、三条评分标准,从"好不好看"到"能不能干" Dream.exe设计了三条并行的评测轨道,分别从视觉质量、轨迹相似性和实际执行成功率三个维度来给模型打分。 在视觉质量评测上,研究团队用了Gemini 3 Pro和Qwen3-VL-Plus两个大语言模型作为评委,从三个维度打分。机器人稳定性评估的是机械爪在整个视频里的视觉一致性——爪子有没有变形、消失或者变成另一种形状。物理合理性评估的是视频里有没有违反常识的现象,比如物体凭空悬浮、物体突然出现或消失、爪子没碰到东西物体就跟着动。任务遵从性评估的是视频内容和任务描述对不对得上,机器人有没有做正确的事。打分采用6帧均匀采样,把画面拼成3×2的网格图送给评委。机器人稳定性用1-15分制,另外两个维度用1-5分制。 在轨迹相似性评测上,提取出来的三维轨迹会和仿真器里真实执行轨迹做比较,分别算三个指标。HSD(对称Hausdorff距离)衡量轨迹形状的最大偏差,反映最坏情况下的几何误差。DYN(Wasserstein-1距离)比较两条轨迹的速度分布,衡量运动节奏是否相似。NDTW(归一化动态时间规整)衡量轨迹在时间上的对齐程度,惩罚局部的时间错配。三个原始距离都会除以一个任务特定的归一化因子,最终映射到0-1区间,越高越好。这三个指标分别在末端执行器视觉中心、工具中心点和被操作物体三个维度上单独计算。 在实际执行评测上,有两层递进的指标。轨迹可执行性指标衡量机器人"照着做"有多顺畅,包括检查点到达率(E-SR,每个中间目标姿态有多少比例能成功到达)、TCP追踪偏差(nDTW,命令轨迹和实际执行轨迹的差异)、位置和旋转误差的95百分位数(Pos95和Rot95)以及路径平滑度(Smth)。任务成功率指标则是最终的"考试成绩":SR-B是二值的任务成功率(完成了就是1,没完成就是0),SR-P是连续的部分完成分数(即使任务最终失败了,也能反映完成了多少进度)。此外还有几个子目标分数,分别衡量夹爪释放质量、目标放置精度、关节运动完成度和核心子目标完成比例。 六、实验结果:颜值和能力,真的不是一回事 视觉质量排行榜上,CosmosPolicy-BenchCam在机器人稳定性上得分最高,这和它专门用机器人视频训练的背景完全符合预期。Veo 3.1在任务遵从性上领先,LTX-Video 2.3在物理合理性上得分最高。从人工评分(四位独立标注员,1-5分制,覆盖稳定性、物理合理性、任务遵从性和预期执行结果四个维度)来看,Wan 2.7在稳定性上得分最高,SeedDance 2.0在物理合理性上最好,Kling 3.0在任务遵从性和预期执行结果上领先。 轨迹相似性排行榜上,Wan 2.7在末端执行器轨迹相似性上领先或持平,CosmosPolicy-BenchCam在物体轨迹相似性上表现最好。有一个很值得注意的现象:通用视频生成器Wan 2.7和Kling 3.0在多个末端执行器指标上能和Cosmos Policy持平甚至超越,说明大规模通用视频预训练在生成合理的机器人运动轨迹方面,并不逊于专门的机器人训练数据。 任务成功率排行榜上,结果就耐人寻味了。第一级任务里,CosmosPolicy-BenchCam拿到最高的二值成功率20.8%。第二级任务里,SeedDance 2.0和Wan 2.7并列最高,都达到21.4%。第三级任务里,绝大多数模型成功率为零,只有Kling 3.0实现了非零成功率,达到6.2%。总体来看,所有模型的成功率都不算高,但确实有多个模型实现了可量化的成功,说明通用视频生成器确实从海量数据中学到了一些有意义的物理知识。 然后来看最关键的发现:视觉质量得分和任务成功率之间,几乎没有关系。研究团队计算了物理合理性得分和二值成功率之间的皮尔逊相关系数,结果是-0.03,基本上等于零相关。具体到每个模型,这种割裂更加刺眼。LTX-Video 2.3在物理合理性上排名第一,但任务成功率在所有模型里垫底。Veo 3.1在任务遵从性上领先,但在第一级任务上只有3.3%的成功率。反过来,视觉质量相对普通的SeedDance 2.0和Kling 3.0,却拿到了最强的任务执行成绩。人工评分结果同样印证了这个规律:评委认为"很好看"的视频,往往不是执行成功率最高的。 Cosmos Policy的表现则是另一个耐人寻味的故事。它在轨迹可执行性指标上遥遥领先——E-SR整体达到0.75(其他模型普遍在0.40-0.56之间),位置和旋转误差也远小于通用模型。但在第二级任务成功率上,它只有2.4%,而SeedDance 2.0和Wan 2.7都达到了21.4%。机器人专属训练让它的轨迹在几何上非常精准、执行起来很顺畅,但面对多样化的任务和不同的摄像机视角,它的泛化能力明显不足。通用视频生成器虽然轨迹"走路姿势"不那么标准,但凭借更强的泛化能力,最终完成任务的能力反而更强。 领域内微调的效果也很有启发性。把Wan 2.2在机器人操作视频上微调之后,生成的视频确实"更像"机器人在干活了,轨迹相似性指标也有所提升,但任务成功率并没有显著改善。这说明在机器人视频上做微调,模型主要学到的是视觉风格,而不是底层的物理约束。看起来更像机器人,不等于真的理解了机器人操作的物理规律。 研究团队还设置了两个参考上限行来帮助读者理解这些成绩的意义。当输入不是生成视频而是仿真器直接渲染的真实轨迹视频时(Rollout Video),使用同样的深度估计管线,第一级任务成功率达到76.5%,整体成功率60.4%。再进一步,如果用仿真器的真实深度替换估计深度(Rollout Video w/ GT Depth),第一级成功率达到100%,整体高达98.1%。这两个参考行说明了两件事:第一,现有的轨迹提取管线本身是基本靠谱的;第二,深度估计仍然是当前管线最大的瓶颈。所有通用视频生成模型都在深度估计这一关损失了大量精度,但这个瓶颈对所有模型是均等的,不影响相互之间的公平比较。 七、失败的三种"姿势":飘起来、抓假的、动作崩了 研究团队通过分析大量失败案例,总结出了三类反复出现的典型错误。 第一类叫"物体悬浮"。在生成的视频里,被操作的物体突然离开了支撑面,凭空飘在半空中,没有任何合理的物理解释。这类错误说明模型在处理物体与支撑面之间的接触关系时存在根本性的理解缺陷。 第二类叫"幽灵抓取"。在视频里,机械爪明明没有真正接触到物体,物体却跟着爪子一起运动了。这就像魔术师表演"隔空取物",看起来很神奇,但在物理世界里根本行不通。这类错误导致轨迹提取时对夹爪时序的推断出现严重偏差,最终执行时机器人根本拿不到东西。 第三类叫"运动学崩溃"。机械臂在运动过程中突然出现不符合机器人运动学约束的姿势,比如关节角度超出物理限制、臂段之间互相穿透、或者末端执行器的运动轨迹出现剧烈的不连续跳跃。这类错误发生时,提取出来的轨迹会包含异常值,执行时机器人要么卡死、要么做出危险动作。 在所有模型、所有任务的失败案例中,幽灵抓取和运动学崩溃是最常见的两类,合计占了大多数的失败案例。物体悬浮相对少见,但一旦出现往往会导致整个后续操作序列的连锁失败。 归根结底,Dream.exe这套评测框架揭示了一个重要的认知校正:视频生成模型有没有学到物理规律,不能靠看视频来判断,要靠"让它干活"来验证。那些在视觉评测上拿高分的模型,不一定真的理解了物理世界;而那些看起来没那么惊艳的模型,可能反而在关键的可执行性上更胜一筹。 这对整个视频生成和机器人学习领域都有实际影响。对视频生成研究者来说,追求更高的视觉质量分数不应该是唯一目标,物理可执行性应当成为一个独立的优化方向。对机器人学习研究者来说,这项工作提供了一个有力的证据:通用视频生成器已经从互联网数据中学到了一些有意义的物理先验,可以作为机器人行为学习的起点;但要真正实现可靠的执行,深度估计的精度、长时序任务的一致性、以及多样化场景的泛化能力,都还有很长的路要走。 机器人专属训练能让几何精度更高,但泛化能力是短板;通用大模型泛化能力强,但对物理细节的理解仍然浮于表面。这两条路的优缺点都已经被这套框架清晰地量化出来,为后续的研究方向提供了明确的参照。 一个值得继续思考的问题是:如果把深度估计这个瓶颈解决掉(参考上限实验已经证明这样做能大幅提升成功率),当前最好的视频生成器能达到什么样的执行水平?如果同时改进深度估计、轨迹提取和视频生成本身,机器人能不能真正像人类看着教程视频学干活一样,通过观看AI生成的视频来学习新任务? 对这个话题感兴趣的读者,可以通过arXiv编号2606.04811查阅完整论文,代码也将在GitHub的showlab/Dream.exe仓库开源。 Q&A Q1:Dream.exe评测框架是如何判断视频生成模型"真正理解物理规律"的? A:Dream.exe的核心逻辑是把视频生成模型生成的机器人操作视频,通过一套五步管线(区域初始化、二维追踪、深度估计、三维还原、夹爪推断)转化成机器人的实际动作序列,然后在MuJoCo物理仿真器里让真实机械臂去执行,看任务完不完成。任务完成了就说明视频里的物理信息是有效的,完不成就说明模型只是学会了"画"机器人,而没有真正理解物理规律。这比只看视频好不好看的评测方式要严格得多。 Q2:Cosmos Policy作为专门的机器人视频模型,为什么在任务成功率上反而不如通用视频生成器? A:Cosmos Policy在轨迹的几何精度和可执行性上确实领先——检查点到达率和追踪误差都远优于通用模型。但它对摄像机视角和任务类型非常敏感,泛化能力明显不足。面对Dream.exe里多样化的摄像机角度和101个不同的任务,它的表现大幅下降。通用视频生成器虽然轨迹不那么"标准",但凭借在海量互联网数据上学到的更广泛的场景理解能力,反而在更多任务上能实际完成操作,体现出更强的跨任务泛化能力。 Q3:在机器人视频上微调之后,Wan 2.2的任务成功率为什么没有提升? A:实验结果显示,对Wan 2.2在机器人操作视频上做LoRA微调,主要改变的是生成视频的视觉风格,让它看起来更像机器人在干活,轨迹相似性指标也有所改善。但任务成功率基本没有变化。这说明仅靠让模型"见过更多机器人视频",无法让它学到真正支撑任务成功所需要的底层物理约束,比如精确的接触时序、准确的空间定位和合理的力学关系。视觉风格和物理理解是两回事。 特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台"网易号"用户上传并发布,本平台仅提供信息存储服务。 Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.
图1 图2

nginx