Embodied-Reasoner：浙江大學(xué)和阿里巴巴達(dá)摩院等機(jī)構(gòu)聯(lián)合提出的一個(gè)開(kāi)源的多模態(tài)具身模型

映技派于2025-04-04發(fā)布在Ai產(chǎn)品

Embodied-Reasoner是什么？

Embodied-Reasoner是由中科院軟件所、浙江大學(xué)和阿里巴巴達(dá)摩院等機(jī)構(gòu)聯(lián)合提出的一個(gè)開(kāi)源的多模態(tài)具身模型，它可以將深度推理能力擴(kuò)展到具身交互任務(wù)中。能夠處理復(fù)雜的具身任務(wù)，例如在 ai2-THOR 模擬器中搜索隱藏物體、操縱和運(yùn)輸物品等。

Embodied-Reasoner：浙江大學(xué)和阿里巴巴達(dá)摩院等機(jī)構(gòu)聯(lián)合提出的一個(gè)開(kāi)源的多模態(tài)具身模型.jpg

Embodied-Reasoner核心特點(diǎn)

深度推理能力：具備分析、空間推理、反思、規(guī)劃等多種推理能力。
多模態(tài)交互處理能力：能夠處理長(zhǎng)序列的圖像-文本交互上下文。
環(huán)境交互能力：可以自主觀察環(huán)境、探索房間并找到隱藏物體。
開(kāi)源模型和數(shù)據(jù)集：

提供 7B 和 2B 兩種大小的開(kāi)源模型。
數(shù)據(jù)集包含 9.3k 交互式的觀察-推理-行動(dòng)軌跡，涵蓋 64K 圖像和 8M 思考標(biāo)記。

Embodied-Reasoner技術(shù)亮點(diǎn)

任務(wù)和軌跡引擎：自動(dòng)合成連貫的“觀察-思考-行動(dòng)”軌跡，覆蓋 107 種多樣化的室內(nèi)場(chǎng)景，如廚房和客廳，涉及 2,100 個(gè)交互對(duì)象和 2,600 個(gè)容器。
長(zhǎng)鏈思考與多樣化思考模式：包括分析、空間推理、反思、規(guī)劃和驗(yàn)證等，這些連貫的圖像-文本交錯(cuò)軌跡增強(qiáng)了其空間和時(shí)間推理能力。
迭代訓(xùn)練流程：結(jié)合模仿學(xué)習(xí)、自我探索調(diào)整和自我修正調(diào)整的三階段迭代訓(xùn)練流程。
交互式評(píng)估框架：包含 809 個(gè)測(cè)試用例，覆蓋 12 種新穎場(chǎng)景，評(píng)估模型在指令理解、關(guān)鍵動(dòng)作和最終狀態(tài)方面的表現(xiàn)。

Embodied-Reasoner：浙江大學(xué)和阿里巴巴達(dá)摩院等機(jī)構(gòu)聯(lián)合提出的一個(gè)開(kāi)源的多模態(tài)具身模型.webp

Embodied-Reasoner性能表現(xiàn)

成功率（Success Rate）：衡量任務(wù)是否成功完成。
搜索效率（Search Efficiency）：評(píng)估任務(wù)效率，步驟越多效率越低。
任務(wù)完整性（Task Completeness）：計(jì)算預(yù)測(cè)動(dòng)作中屬于關(guān)鍵動(dòng)作的比例。

Embodied-Reasoner應(yīng)用案例

模擬器實(shí)驗(yàn)：Embodied-Reasoner 展現(xiàn)出自發(fā)的思考行為，例如分析環(huán)境狀態(tài)、反思遺漏細(xì)節(jié)、基于最新觀察進(jìn)行推理以及回憶線索進(jìn)行高效規(guī)劃。相比之下，缺乏思考能力的通用 VLM 在長(zhǎng)時(shí)域交互任務(wù)中表現(xiàn)不佳，容易忘記任務(wù)或重復(fù)搜索。
真實(shí)世界實(shí)驗(yàn)：在真實(shí)環(huán)境中，Embodied-Reasoner 能夠排除干擾，最終找到目標(biāo)物體并完成任務(wù)，而 OpenAI 的 o3-mini 模型則無(wú)法制定合理計(jì)劃。

Embodied-Reasoner使用指南

訓(xùn)練

1. 安裝依賴(lài)：

conda create -n llama-factory python=3.11
conda activate llama-factory
git clone -b embodied-reasoner https://github.com/iGangao/LLaMA-Factory.git
cd LLaMA-Factory
pip install -e ".[torch,metrics]"
pip install wandb accelerate deepspeed importlib-metadata

2. 數(shù)據(jù)準(zhǔn)備：參考 data/README.md 文件了解數(shù)據(jù)集文件的格式。

3. 運(yùn)行訓(xùn)練腳本：運(yùn)行訓(xùn)練腳本。

評(píng)估

1. 安裝依賴(lài)：

conda create -n embodied-reasoner python=3.9
conda activate embodied-reasoner
pip install -r requirements.txt

2. 運(yùn)行評(píng)估腳本：運(yùn)行評(píng)估腳本。

數(shù)據(jù)引擎

TaskGenerate.py：合成任務(wù)模板和對(duì)應(yīng)的關(guān)鍵動(dòng)作。
o1StyleGenerate.py和 o1StyleGenerate_ordered.py：分別為 10 種不同子任務(wù)類(lèi)型合成軌跡，后者用于合成更復(fù)雜的順序?qū)ο筠D(zhuǎn)移任務(wù)。