Alter3:GPT-4 為人形機(jī)器人運(yùn)動(dòng)和對(duì)話控制提供動(dòng)力
東京大學(xué)的科學(xué)家將 Openai 的 GPT-4 大型語(yǔ)言模型 (LLM) 與人形機(jī)器人聯(lián)系起來(lái)。正如一篇新發(fā)表的論文所解釋的那樣,這個(gè)名為Alter3的機(jī)器人可以很好地理解對(duì)話提示,從而控制機(jī)器人的運(yùn)動(dòng)和手勢(shì)。
Alter3項(xiàng)目地址:https://tnoinkwms.github.io/ALTER-LLM/
東京大學(xué)團(tuán)隊(duì)演示了 Alter3 在用自然語(yǔ)言指導(dǎo)時(shí)采用自拍、彈吉他或假裝成鬼魂等姿勢(shì),而無(wú)需對(duì)每個(gè)動(dòng)作進(jìn)行顯式編程。GPT-4 也為 ChatGPT 提供動(dòng)力,它能夠理解人們用他們喜歡的任何術(shù)語(yǔ)描述的內(nèi)容、做出實(shí)物回應(yīng)或生成與 DALL-E 3 相關(guān)的圖像的方式大致相同。
科學(xué)家們的這一突破彌合了與物理機(jī)器人的對(duì)話交互的差距,這通常需要使用專門的基于硬件的代碼進(jìn)行精細(xì)的運(yùn)動(dòng)控制。研究人員將高級(jí)命令轉(zhuǎn)換為Alter3可以執(zhí)行的指令。機(jī)器人可以像人類直觀地拾取動(dòng)作一樣學(xué)習(xí)動(dòng)作——從基本的洗牌到更協(xié)調(diào)的動(dòng)作。用戶可以引導(dǎo) Alter3 的姿勢(shì)并幫助它區(qū)分細(xì)微差別,例如不同的舞蹈動(dòng)作。
這是一種能夠使用大型語(yǔ)言模型 (LLM) 生成自發(fā)運(yùn)動(dòng)的人形機(jī)器人,特別是 GPT-4。這一成就是通過(guò)將 GPT-4 集成到我們專有的機(jī)器人 Alter3 中來(lái)實(shí)現(xiàn)的,從而有效地將 LLM 與 Alter 的身體運(yùn)動(dòng)聯(lián)系起來(lái)。通常,低級(jí)機(jī)器人控制依賴于硬件,不屬于 LLM 語(yǔ)料庫(kù)的范圍,這給基于 LLM 的直接機(jī)器人控制帶來(lái)了挑戰(zhàn)。
然而,在像 Alter3 這樣的人形機(jī)器人的情況下,通過(guò)程序代碼將人類動(dòng)作的語(yǔ)言表達(dá)映射到機(jī)器人的身體上,直接控制是可行的。值得注意的是,這種方法使 Alter3 能夠采用各種姿勢(shì),例如“自拍”姿勢(shì)或“假裝成幽靈”,并隨著時(shí)間的推移生成一系列動(dòng)作,而無(wú)需對(duì)每個(gè)身體部位進(jìn)行顯式編程。
這證明了機(jī)器人的零樣本學(xué)習(xí)能力。此外,口頭反饋可以調(diào)整姿勢(shì),無(wú)需微調(diào)。