押注的「」训出专用世界模型，首证机器人

vip888 科技发展 2024-09-19 347 0 押注的「」训出专用世界模型首证机器人

机器之心报道

机器之心编辑部

机器人能认出镜子中的自己吗？目前来看，依然做不到。

去年3月，OpenAI领投了一家具身智能公司「1X」。这是一家成立于2014年的挪威人形机器人公司，致力于研发双足机器人NEO和商用轮式人形机器人EVE。

本月初，1X正式推出了专为家庭使用而设计的双足人形机器人NEOBeta，让人们看到了大模型加持下活灵活现、超拟人机器人的不断进步。

如今，1X迎来了自己的世界模型。具体地，基于视频生成（Sora）和自动驾驶世界模型（端到端自动驾驶，E2EAD）领域的进展，1X训练出了一个世界模型，作为自家机器人的虚拟模拟器。

1X人工智能副总裁EricJang表示，过去几个月，1X一直在开发通用机器人的学习模拟器，如今终于问世了。

1X工程师DanielHo表示这是机器人世界模型的初步进展，模型可以理解接触到的物理世界并生成高保真视频，使机器人可以在自己的神经空间中执行规划、评估和模拟操作。并且，很多生成的视频片段很难与真实视频区分开来。

1X创始人兼CEOBerntBornich表示，这是人形机器人数据显著增强扩展定律的首个证据，「没有勺子」。

各路网友也对这个机器人世界模型给予了很高评价。

世界模型加持下的1X人形机器人还让一些人直呼《西部世界》重现。

从1X官方给出的Demo可以看到，从相同的起始图像序列开始，1X的世界模型可以从不同的机器人（EVE）动作建议中想象出多种未来。

这个世界模型还能预测非平凡物体（如刚体）的相互作用、掉落物体的影响、部分可观测性、可变形物体（窗帘、衣物）和铰接物体（门、抽屉、窗帘、椅子）。

机器人的「ChatGPT时刻」，同样需要扩展定律

世界模型解决了构建通用机器人时一个非常实际、但经常被忽视的挑战，即评估。如果你训练的机器人可以执行1000项任务，与先前模型相比，我们也很难确定新模型用在机器人上，在这1000项任务上表现优越。由于周围环境如光照细微的变化，即使模型权重相同，机器人也可能在几天内经历性能的快速下降。

此前1X训练了一个模型，在50天的时间里，机器人性能下降了

如果环境随着时间的推移不断变化，那么此前在该环境中达到的实验性能很难复现，因为旧环境不存在了。如果你在不断变化的环境（如家庭或办公室）中评估多任务系统，那么这个问题将会变得更加糟糕。这一状况使得在现实世界中进行机器人科学研究变得异常困难。

经过深入研究我们不禁会问，当数据、计算和模型规模增加时，机器人的能力将如何扩展？在大模型领域，扩展定律普遍得到大家的认同，如果机器人技术要迎来「ChatGPT时刻」，必须首先建立它的扩展定律。

其他评估方法

基于物理的模拟（Bullet、Mujoco、IsaacSim、Drake）是快速测试机器人策略的合理方法。这些方法可重置且可重现，这样一来，研究人员能够仔细比较不同控制算法带来的的差异。

然而，这些模拟器大多是为刚体动力学设计的，需要大量手工资产创作。

如何让机器人打开咖啡滤纸的纸盒、用刀切水果、拧开冷冻果酱罐或与人类等其他智能体互动还是一个值得思考的问题。众所周知，家庭环境中遇到的日常物体或者饲养的宠物很难模拟，因此机器人使用的模拟环境往往在视觉上很单调，缺乏现实世界用例的多样性。对现实或模拟环境中有限数量任务的小规模评估无法泛化到对现实世界中的大规模评估。

世界模型

1X正在采用一种全新的方法来评估通用机器人，即直接从原始传感器数据中学习模拟器，并使用模拟器来评估新策略。通过直接从真实数据中学习模拟器，你可以在不手动创建资产的情况下了解真实世界的复杂性。

在过去的一年里，1X收集的1X旗舰产品EVE机器人的数据高达数千小时，这些数据包括在家中和办公室中执行各种移动操作任务以及与人互动的任务。研究人员将这些视频和动作数据结合起来，训练了一个世界模型，押注的「」训出专用世界模型，首证机器人该模型可以根据观察和动作预测未来的视频。

动作控制

该研究训练的世界模型能够根据不同的动作指令产生不同的结果，下面展示了在四种不同轨迹条件下的世界模型生成的效果，每种轨迹都从相同的初始帧开始。

左门轨迹

右门轨迹

弹奏空气吉他

世界模型的主要价值来自于模拟对象交互。在抓取盒子实验中，研究团队为模型提供相同的初始框架和三组不同的动作来抓取盒子。在每种情况下，所抓取的盒子都会根据夹具的运动而被提升和移动，而其他盒子则保持不受干扰。