《科創(chuàng)板日?qǐng)?bào)》7月31日訊(編輯 鄭遠(yuǎn)方)一個(gè)單臂機(jī)器人“站”在桌前,桌上放著三個(gè)塑料動(dòng)物玩具:獅子、鯨魚與恐龍。收到“撿起滅絕的動(dòng)物”指令后,這個(gè)機(jī)器人“思考”了一會(huì)兒,然后甚至機(jī)械臂,打開爪子,抓起了恐龍。
這是谷歌最新一款機(jī)器人模型Robotic Transformer 2(機(jī)器人變形金剛2,RT-2)。
上文這個(gè)“抓起恐龍”的動(dòng)作對(duì)于人類而言輕而易舉,對(duì)于機(jī)器人而言卻堪稱一個(gè)重要飛躍——之前機(jī)器人經(jīng)常無(wú)法操縱自己從未見(jiàn)過(guò)的東西,也難以實(shí)現(xiàn)從“滅絕的動(dòng)物”到“塑料恐龍”的邏輯飛躍。
(資料圖片)
作為一款新型視覺(jué)-語(yǔ)言-動(dòng)作(vision-language-action,VLA)模型,RT-2可以從網(wǎng)絡(luò)、機(jī)器人數(shù)據(jù)中學(xué)習(xí),并將這些知識(shí)轉(zhuǎn)化為機(jī)器人控制的通用指令。
相較于其他機(jī)器人研究,RT-2的核心優(yōu)勢(shì)在于,其不僅能直接接收“人話”指令,聽(tīng)懂“人話”、理解“人話”,還能做出相應(yīng)推理,并轉(zhuǎn)為機(jī)器人能理解的分階段指令,從而做出動(dòng)作完成任務(wù)。
RT-2完成的每一項(xiàng)任務(wù),都要求其理解視覺(jué)語(yǔ)義概念、并通過(guò)控制機(jī)器人實(shí)現(xiàn)操作這些概念。
例如接到“撿起桌子上快掉下去的袋子”、“將香蕉移動(dòng)到2加1的總和處”這種指令時(shí),機(jī)器人需要對(duì)相應(yīng)物體/場(chǎng)景執(zhí)行任務(wù),而這些物體與場(chǎng)景它從未在機(jī)器人數(shù)據(jù)中見(jiàn)過(guò),需要從網(wǎng)絡(luò)數(shù)據(jù)中轉(zhuǎn)化得到相應(yīng)知識(shí)。
總體而言,RT-2具備三大能力:符號(hào)理解(Symbol understanding)、推理(Reasoning)和人類識(shí)別(Human recognition)。
(1)符號(hào)理解是指RT-2可以從視覺(jué)語(yǔ)言預(yù)訓(xùn)練中轉(zhuǎn)移了語(yǔ)義知識(shí),而這些語(yǔ)義知識(shí)在機(jī)器人數(shù)據(jù)中并不存在。這類指令示例包括“將蘋果移到3號(hào)位置”或“將可樂(lè)罐推到心形上”。
圖|符號(hào)理解指令示例
(2)推理則是將VLM的各種推理能力用于任務(wù)控制,包括視覺(jué)推理(“將蘋果移到相同顏色的杯子里”)、數(shù)學(xué)推理(“將X移到2加1之和的附近”)、多語(yǔ)言理解(“mueve la manzana al vaso verde”,西班牙語(yǔ))。
圖|推理指令示例
(3)人類識(shí)別是以人類為中心的理解和識(shí)別能力,RT-2可以完成“將可樂(lè)罐移到戴眼鏡的人身邊”這類任務(wù)。
圖|人類識(shí)別指令示例
此外,研究人員還將機(jī)器人控制與思維鏈推理相結(jié)合。首先用自然語(yǔ)言描述機(jī)器人即將采取的動(dòng)作的目的,然后是“動(dòng)作”和動(dòng)作標(biāo)記。
例如在下圖中,RT-2接收到的要求是“我想釘個(gè)釘子,場(chǎng)景里什么東西可能能用上?”,RT-2轉(zhuǎn)化得出了“石頭。動(dòng)作:1 129 138 122 132 132 106 127”的指令,并拿起了石頭。
RT-2還能更好地適用于不同的、機(jī)器此前沒(méi)見(jiàn)過(guò)的場(chǎng)景。比起在大型數(shù)據(jù)集上預(yù)訓(xùn)練的RT-1、Visual Cortex(VC-1)等模型,RT-2泛化能力大幅提高,較前者提高了3倍有余。
加利福尼亞大學(xué)伯克利分校的機(jī)器人學(xué)教授Ken Goldberg表示,機(jī)器人的靈巧性仍達(dá)不到人類水平,在一些基本任務(wù)上也會(huì)失敗,但谷歌利用人工智能語(yǔ)言模型,賦予機(jī)器人推理和隨機(jī)應(yīng)變的新技能,是一個(gè)很有希望的突破。