如虎添翼，谷歌探索机器人未来：平方米复杂场景下指令成功率高达%

7月13日消息，科技媒体TheVerge昨日报道，谷歌旗下的DeepMind团队正在使用Gemini训练其机器人，让其能够完成更复杂的任务，且能在复杂的环境下自由穿梭。

DeepMind团队已经发表了最新的研究论文，利用Gemini1.5Pro的上下文窗口（达到200万个词元），让用户可以更轻松地使用自然语言指令与RT-2机器人互动。

IT之家注：上下文窗口（contextwindow）是指语言模型在进行预测或生成文本时，所考虑的前一个词元（token）或文本片段的大小范围。

其工作原理是拍摄指定区域（如家庭或办公空间）的视频导览，研究人员使用Gemini1.5Pro让机器人“观看”视频以了解环境；然后，机器人可以根据观察到的情况，通过语言和/或图像输出来执行命令。

例如用户向机器人展示一部手机，并询问“在哪里可以充电？”，机器人会引导用户找到室内的电源插座。

DeepMind称，在一个9000平方英尺（IT之家备注：约836.13平方米）的操作区内，机器人在升级Gemini之后，测试发出50多条用户指令，成功率高达90%。

研究人员还发现"初步证据"表明，Gemini1.5Pro能让机器人计划如何完成导航以外的指令。

例如，当一位桌上摆放着许多可乐罐的用户询问机器人是否有他们最喜欢的饮料时，如虎添翼，谷歌探索机器人未来：平方米复杂场景下指令成功率高达%Gemini“知道机器人应该导航到冰箱，检查是否有可乐，然后返回用户处报告结果”。DeepMind表示计划进一步研究这些结果。

【来源：IT之家】

免责声明：本网站部分内容由用户自行上传，若侵犯了您的权益，请联系我们处理，谢谢！联系QQ：无敌椰子