谷歌的RT-2模型根据网上的文本和图像进行训练,直接指示机器人动作,比如让机器人无需接受训练就懂得垃圾是什么,甚至知道怎样扔垃圾。谷歌称,面对训练中从未出现的新任务情形时,RT-2的性能较前代几乎提高一倍;RT-2能根据基本的推理响应用户指令。

谷歌正在把先进的人工智能(AI)模型植入机器人,给机器人配一个AI大脑。

美东时间7月28日周五,谷歌DeepMind宣布推出应用于机器人领域的新产品——名为Robotics Transformer 2(RT-2)的AI模型。它是一种全新的“视觉-语言-行动”(VLA)模型,可以帮助训练机器人理解扔垃圾等任务。


(资料图)

谷歌介绍,RT-2基于Transformer模型,根据互联网上的文本和图像进行训练,直接指示机器人执行动作。就像用语言模型通过网络文本训练AI学习人类社会的思想和概念一样,RT-2也可以通过网络数据,将相关知识告知机器人,指导机器人的行为。

谷歌举例称,如果我们要让以前的机器人系统做出扔垃圾的动作,就必须明确训练机器人懂得区分何为垃圾,以及捡起垃圾、扔掉它这些动作。而RT-2能将网上的相关知识传给机器人,让机器人无需明确的训练,就懂得垃圾是什么,甚至即便从未受过如何扔垃圾的训练,也知道怎么扔垃圾。

谷歌表示,RT-2具有将信息转化动作的能力,借助它,机器人有望更快适应全新的情形和环境。

因为在6000多次测试RT-2 模型的机器人试验后,谷歌的团队发现,面对训练数据中已有的任务、或者说“见过”的任务,RT-2和它的前代RT-1一样发挥功能,没有差别。而在新颖的、之前从未见过的任务情形中,RT-2的性能几乎提高一倍,成功率达到62%,远超RT-1的32%。

换句话说,通过RT-2,机器人能像人类一样学习更多内容,将学到的概念应用于全新的情境中。

谷歌称,RT-2显示出超越其所接触机器人数据的推广应用能力和语义、视觉理解能力,包括解释新的命令,并通过基本的推理响应用户的指令,比如关于物体的类别和高层次描述的推理。

谷歌的研究还表明,通过结合思维链的推理,RT-2能执行多阶段的语义推理,比如判断哪种物体可以临时用作锤子,哪一类饮料最适合疲劳的人。

有媒体周五称,谷歌目前没有立即计划大规模发布或者出售应用RT-2的机器人,但最终,这些机器人可能用在仓库或者用作家庭助理。

谷歌 DeepMind 机器人主管 Vincent Vanhoucke表示:“RT-2 不仅展示了人工智能的进步如何迅速融入机器人技术,而且还展示了更多通用机器人的巨大前景。”

但谷歌首个具有“自我学习”能力的机器人算法模型也进一步加剧了人工智能失控的担忧,人类是否已经打开了一个潘多拉魔盒?

在《终结者》中,机器人的“自我学习”能力可能会让它们逐渐突破人类设定的限制,实现超越预期的智能水平。这种超越可能导致机器人拥有自主意识和决策能力,而这也意味着它们有可能对人类产生意想不到的威胁。

随着人工智能技术的迅猛发展,科技巨头和全球监管机构已经越来越意识到人工智能安全问题的重要性,纷纷采取行动以应对这一挑战。

希望人工智能朝《杰森一家》的剧情发展,机器人家庭成员与人类和谐相处,而不是走向《终结者》。

关键词: