我爱我色成人网,欧美日韩国产色,欧美亚视频在线中文字幕免费,亚洲国产影院

Embodied-Reasoner:浙江大學(xué)和阿里巴巴達(dá)摩院等機(jī)構(gòu)聯(lián)合提出的一個(gè)開(kāi)源的多模態(tài)具身模型

Embodied-Reasoner是什么?

Embodied-Reasoner是由中科院軟件所、浙江大學(xué)和阿里巴巴達(dá)摩院等機(jī)構(gòu)聯(lián)合提出的一個(gè)開(kāi)源的多模態(tài)具身模型,它可以將深度推理能力擴(kuò)展到具身交互任務(wù)中。能夠處理復(fù)雜的具身任務(wù),例如在 ai2-THOR 模擬器中搜索隱藏物體、操縱和運(yùn)輸物品等。

Embodied-Reasoner:浙江大學(xué)和阿里巴巴達(dá)摩院等機(jī)構(gòu)聯(lián)合提出的一個(gè)開(kāi)源的多模態(tài)具身模型.jpg

Embodied-Reasoner核心特點(diǎn)

  • 深度推理能力:具備分析、空間推理、反思、規(guī)劃等多種推理能力。

  • 多模態(tài)交互處理能力:能夠處理長(zhǎng)序列的圖像-文本交互上下文。

  • 環(huán)境交互能力:可以自主觀察環(huán)境、探索房間并找到隱藏物體。

  • 開(kāi)源模型和數(shù)據(jù)集:

  • 提供 7B 和 2B 兩種大小的開(kāi)源模型。

  • 數(shù)據(jù)集包含 9.3k 交互式的觀察-推理-行動(dòng)軌跡,涵蓋 64K 圖像和 8M 思考標(biāo)記。

Embodied-Reasoner技術(shù)亮點(diǎn)

  • 任務(wù)和軌跡引擎:自動(dòng)合成連貫的“觀察-思考-行動(dòng)”軌跡,覆蓋 107 種多樣化的室內(nèi)場(chǎng)景,如廚房和客廳,涉及 2,100 個(gè)交互對(duì)象和 2,600 個(gè)容器。

  • 長(zhǎng)鏈思考與多樣化思考模式:包括分析、空間推理、反思、規(guī)劃和驗(yàn)證等,這些連貫的圖像-文本交錯(cuò)軌跡增強(qiáng)了其空間和時(shí)間推理能力。

  • 迭代訓(xùn)練流程:結(jié)合模仿學(xué)習(xí)、自我探索調(diào)整和自我修正調(diào)整的三階段迭代訓(xùn)練流程。

  • 交互式評(píng)估框架:包含 809 個(gè)測(cè)試用例,覆蓋 12 種新穎場(chǎng)景,評(píng)估模型在指令理解、關(guān)鍵動(dòng)作和最終狀態(tài)方面的表現(xiàn)。

Embodied-Reasoner:浙江大學(xué)和阿里巴巴達(dá)摩院等機(jī)構(gòu)聯(lián)合提出的一個(gè)開(kāi)源的多模態(tài)具身模型.webp

Embodied-Reasoner性能表現(xiàn)

  • 成功率(Success Rate):衡量任務(wù)是否成功完成。

  • 搜索效率(Search Efficiency):評(píng)估任務(wù)效率,步驟越多效率越低。

  • 任務(wù)完整性(Task Completeness):計(jì)算預(yù)測(cè)動(dòng)作中屬于關(guān)鍵動(dòng)作的比例。

Embodied-Reasoner應(yīng)用案例

  • 模擬器實(shí)驗(yàn):Embodied-Reasoner 展現(xiàn)出自發(fā)的思考行為,例如分析環(huán)境狀態(tài)、反思遺漏細(xì)節(jié)、基于最新觀察進(jìn)行推理以及回憶線索進(jìn)行高效規(guī)劃。相比之下,缺乏思考能力的通用 VLM 在長(zhǎng)時(shí)域交互任務(wù)中表現(xiàn)不佳,容易忘記任務(wù)或重復(fù)搜索。

  • 真實(shí)世界實(shí)驗(yàn):在真實(shí)環(huán)境中,Embodied-Reasoner 能夠排除干擾,最終找到目標(biāo)物體并完成任務(wù),而 OpenAI 的 o3-mini 模型則無(wú)法制定合理計(jì)劃。

Embodied-Reasoner使用指南

訓(xùn)練

1. 安裝依賴(lài):

conda create -n llama-factory python=3.11
conda activate llama-factory
git clone -b embodied-reasoner https://github.com/iGangao/LLaMA-Factory.git
cd LLaMA-Factory
pip install -e ".[torch,metrics]"
pip install wandb accelerate deepspeed importlib-metadata

2. 數(shù)據(jù)準(zhǔn)備:參考 data/README.md 文件了解數(shù)據(jù)集文件的格式。

3. 運(yùn)行訓(xùn)練腳本:運(yùn)行訓(xùn)練腳本。

評(píng)估

1. 安裝依賴(lài):

conda create -n embodied-reasoner python=3.9
conda activate embodied-reasoner
pip install -r requirements.txt

2. 運(yùn)行評(píng)估腳本:運(yùn)行評(píng)估腳本。

數(shù)據(jù)引擎

  • TaskGenerate.py:合成任務(wù)模板和對(duì)應(yīng)的關(guān)鍵動(dòng)作。

  • o1StyleGenerate.pyo1StyleGenerate_ordered.py:分別為 10 種不同子任務(wù)類(lèi)型合成軌跡,后者用于合成更復(fù)雜的順序?qū)ο筠D(zhuǎn)移任務(wù)。

相關(guān)鏈接

GitHub項(xiàng)目主頁(yè):https://github.com/zwq2018/embodied_reasoner

Hugging Face 數(shù)據(jù)集:https://huggingface.co/datasets/embodied_reasoner

Arxiv 論文:https://arxiv.org/abs/2503.21696

收藏
最新工具
unDraw
unDraw

美國(guó)設(shè)計(jì)師Katerina Limpitsouni創(chuàng)作的開(kāi)源插畫(huà)...

Storyset
Storyset

一個(gè)由知名素材平臺(tái)Freepik公司旗下的免費(fèi)在線自定義矢量插畫(huà)...

Jigsaw Planet
Jigsaw Planet

一個(gè)數(shù)百萬(wàn)免費(fèi)在線拼圖平臺(tái),用戶(hù)能直接通過(guò)瀏覽器創(chuàng)建、游玩和分享...

GeoFS
GeoFS

一款免費(fèi)的網(wǎng)頁(yè)版多人飛行模擬器網(wǎng)站,只要瀏覽器就可以運(yùn)行,不需要...

Avido AI
Avido AI

通過(guò) AI 技術(shù)幫用戶(hù)生成適合 YouTube 和 TikTok...

表答AI
表答AI

一款能抓取網(wǎng)頁(yè)內(nèi)容并能情感分析的數(shù)據(jù)分析產(chǎn)品,并把采集分析過(guò)程自...

Recaster AI
Recaster AI

通過(guò)導(dǎo)入產(chǎn)品圖像或數(shù)據(jù),生成定制的SEO內(nèi)容,支持從Shopif...

ScanPDF
ScanPDF

一個(gè)能夠讓PDF看起來(lái)就像是掃描件一樣的在線免費(fèi)工具。只需點(diǎn)擊鼠...

SkylineWebCams
SkylineWebCams

在美洲、歐洲、亞洲、非洲及大洋洲59個(gè)國(guó)家,提供全球五大洲實(shí)時(shí)高...

Ezgif
Ezgif

一個(gè)簡(jiǎn)單、免費(fèi)的在線 GIF 制作工具和基礎(chǔ)動(dòng)畫(huà)圖像編輯工具集,...

主站蜘蛛池模板: 越西县| 宾阳县| 南充市| 柳河县| 永丰县| 永新县| 北安市| 灵石县| 本溪| 乌兰察布市| 永泰县| 阜城县| 祁连县| 靖州| 横山县| 客服| 瓦房店市| 平泉县| 名山县| 大姚县| 宁蒗| 隆子县| 韶山市| 边坝县| 昌宁县| 黔江区| 和静县| 来凤县| 庄浪县| 德清县| 攀枝花市| 于都县| 偏关县| 永顺县| 瑞昌市| 嘉善县| 凤庆县| 太康县| 咸宁市| 绍兴市| 延吉市|