Embodied-Reasoner:浙江大學(xué)和阿里巴巴達(dá)摩院等機(jī)構(gòu)聯(lián)合提出的一個(gè)開(kāi)源的多模態(tài)具身模型
Embodied-Reasoner是什么?
Embodied-Reasoner是由中科院軟件所、浙江大學(xué)和阿里巴巴達(dá)摩院等機(jī)構(gòu)聯(lián)合提出的一個(gè)開(kāi)源的多模態(tài)具身模型,它可以將深度推理能力擴(kuò)展到具身交互任務(wù)中。能夠處理復(fù)雜的具身任務(wù),例如在 ai2-THOR 模擬器中搜索隱藏物體、操縱和運(yùn)輸物品等。
Embodied-Reasoner核心特點(diǎn)
深度推理能力:具備分析、空間推理、反思、規(guī)劃等多種推理能力。
多模態(tài)交互處理能力:能夠處理長(zhǎng)序列的圖像-文本交互上下文。
環(huán)境交互能力:可以自主觀察環(huán)境、探索房間并找到隱藏物體。
開(kāi)源模型和數(shù)據(jù)集:
提供 7B 和 2B 兩種大小的開(kāi)源模型。
數(shù)據(jù)集包含 9.3k 交互式的觀察-推理-行動(dòng)軌跡,涵蓋 64K 圖像和 8M 思考標(biāo)記。
Embodied-Reasoner技術(shù)亮點(diǎn)
任務(wù)和軌跡引擎:自動(dòng)合成連貫的“觀察-思考-行動(dòng)”軌跡,覆蓋 107 種多樣化的室內(nèi)場(chǎng)景,如廚房和客廳,涉及 2,100 個(gè)交互對(duì)象和 2,600 個(gè)容器。
長(zhǎng)鏈思考與多樣化思考模式:包括分析、空間推理、反思、規(guī)劃和驗(yàn)證等,這些連貫的圖像-文本交錯(cuò)軌跡增強(qiáng)了其空間和時(shí)間推理能力。
迭代訓(xùn)練流程:結(jié)合模仿學(xué)習(xí)、自我探索調(diào)整和自我修正調(diào)整的三階段迭代訓(xùn)練流程。
交互式評(píng)估框架:包含 809 個(gè)測(cè)試用例,覆蓋 12 種新穎場(chǎng)景,評(píng)估模型在指令理解、關(guān)鍵動(dòng)作和最終狀態(tài)方面的表現(xiàn)。
Embodied-Reasoner性能表現(xiàn)
成功率(Success Rate):衡量任務(wù)是否成功完成。
搜索效率(Search Efficiency):評(píng)估任務(wù)效率,步驟越多效率越低。
任務(wù)完整性(Task Completeness):計(jì)算預(yù)測(cè)動(dòng)作中屬于關(guān)鍵動(dòng)作的比例。
Embodied-Reasoner應(yīng)用案例
模擬器實(shí)驗(yàn):Embodied-Reasoner 展現(xiàn)出自發(fā)的思考行為,例如分析環(huán)境狀態(tài)、反思遺漏細(xì)節(jié)、基于最新觀察進(jìn)行推理以及回憶線索進(jìn)行高效規(guī)劃。相比之下,缺乏思考能力的通用 VLM 在長(zhǎng)時(shí)域交互任務(wù)中表現(xiàn)不佳,容易忘記任務(wù)或重復(fù)搜索。
真實(shí)世界實(shí)驗(yàn):在真實(shí)環(huán)境中,Embodied-Reasoner 能夠排除干擾,最終找到目標(biāo)物體并完成任務(wù),而 OpenAI 的 o3-mini 模型則無(wú)法制定合理計(jì)劃。
Embodied-Reasoner使用指南
訓(xùn)練
1. 安裝依賴(lài):
conda create -n llama-factory python=3.11 conda activate llama-factory git clone -b embodied-reasoner https://github.com/iGangao/LLaMA-Factory.git cd LLaMA-Factory pip install -e ".[torch,metrics]" pip install wandb accelerate deepspeed importlib-metadata
2. 數(shù)據(jù)準(zhǔn)備:參考 data/README.md 文件了解數(shù)據(jù)集文件的格式。
3. 運(yùn)行訓(xùn)練腳本:運(yùn)行訓(xùn)練腳本。
評(píng)估
1. 安裝依賴(lài):
conda create -n embodied-reasoner python=3.9 conda activate embodied-reasoner pip install -r requirements.txt
2. 運(yùn)行評(píng)估腳本:運(yùn)行評(píng)估腳本。
數(shù)據(jù)引擎
TaskGenerate.py:合成任務(wù)模板和對(duì)應(yīng)的關(guān)鍵動(dòng)作。
o1StyleGenerate.py和 o1StyleGenerate_ordered.py:分別為 10 種不同子任務(wù)類(lèi)型合成軌跡,后者用于合成更復(fù)雜的順序?qū)ο筠D(zhuǎn)移任務(wù)。
相關(guān)鏈接
GitHub項(xiàng)目主頁(yè):https://github.com/zwq2018/embodied_reasoner
Hugging Face 數(shù)據(jù)集:https://huggingface.co/datasets/embodied_reasoner
Arxiv 論文:https://arxiv.org/abs/2503.21696