我爱我色成人网,欧美日韩国产色,欧美亚视频在线中文字幕免费,亚洲国产影院

Embodied-Reasoner:浙江大學和阿里巴巴達摩院等機構聯合提出的一個開源的多模態具身模型

Embodied-Reasoner是什么?

Embodied-Reasoner是由中科院軟件所、浙江大學和阿里巴巴達摩院等機構聯合提出的一個開源的多模態具身模型,它可以將深度推理能力擴展到具身交互任務中。能夠處理復雜的具身任務,例如在 ai2-THOR 模擬器中搜索隱藏物體、操縱和運輸物品等。

Embodied-Reasoner:浙江大學和阿里巴巴達摩院等機構聯合提出的一個開源的多模態具身模型.jpg

Embodied-Reasoner核心特點

  • 深度推理能力:具備分析、空間推理、反思、規劃等多種推理能力。

  • 多模態交互處理能力:能夠處理長序列的圖像-文本交互上下文。

  • 環境交互能力:可以自主觀察環境、探索房間并找到隱藏物體。

  • 開源模型和數據集:

  • 提供 7B 和 2B 兩種大小的開源模型。

  • 數據集包含 9.3k 交互式的觀察-推理-行動軌跡,涵蓋 64K 圖像和 8M 思考標記。

Embodied-Reasoner技術亮點

  • 任務和軌跡引擎:自動合成連貫的“觀察-思考-行動”軌跡,覆蓋 107 種多樣化的室內場景,如廚房和客廳,涉及 2,100 個交互對象和 2,600 個容器。

  • 長鏈思考與多樣化思考模式:包括分析、空間推理、反思、規劃和驗證等,這些連貫的圖像-文本交錯軌跡增強了其空間和時間推理能力。

  • 迭代訓練流程:結合模仿學習、自我探索調整和自我修正調整的三階段迭代訓練流程。

  • 交互式評估框架:包含 809 個測試用例,覆蓋 12 種新穎場景,評估模型在指令理解、關鍵動作和最終狀態方面的表現。

Embodied-Reasoner:浙江大學和阿里巴巴達摩院等機構聯合提出的一個開源的多模態具身模型.webp

Embodied-Reasoner性能表現

  • 成功率(Success Rate):衡量任務是否成功完成。

  • 搜索效率(Search Efficiency):評估任務效率,步驟越多效率越低。

  • 任務完整性(Task Completeness):計算預測動作中屬于關鍵動作的比例。

Embodied-Reasoner應用案例

  • 模擬器實驗:Embodied-Reasoner 展現出自發的思考行為,例如分析環境狀態、反思遺漏細節、基于最新觀察進行推理以及回憶線索進行高效規劃。相比之下,缺乏思考能力的通用 VLM 在長時域交互任務中表現不佳,容易忘記任務或重復搜索。

  • 真實世界實驗:在真實環境中,Embodied-Reasoner 能夠排除干擾,最終找到目標物體并完成任務,而 OpenAI 的 o3-mini 模型則無法制定合理計劃。

Embodied-Reasoner使用指南

訓練

1. 安裝依賴:

conda create -n llama-factory python=3.11
conda activate llama-factory
git clone -b embodied-reasoner https://github.com/iGangao/LLaMA-Factory.git
cd LLaMA-Factory
pip install -e ".[torch,metrics]"
pip install wandb accelerate deepspeed importlib-metadata

2. 數據準備:參考 data/README.md 文件了解數據集文件的格式。

3. 運行訓練腳本:運行訓練腳本。

評估

1. 安裝依賴:

conda create -n embodied-reasoner python=3.9
conda activate embodied-reasoner
pip install -r requirements.txt

2. 運行評估腳本:運行評估腳本。

數據引擎

  • TaskGenerate.py:合成任務模板和對應的關鍵動作。

  • o1StyleGenerate.pyo1StyleGenerate_ordered.py:分別為 10 種不同子任務類型合成軌跡,后者用于合成更復雜的順序對象轉移任務。

相關鏈接

GitHub項目主頁:https://github.com/zwq2018/embodied_reasoner

Hugging Face 數據集:https://huggingface.co/datasets/embodied_reasoner

Arxiv 論文:https://arxiv.org/abs/2503.21696

收藏
最新工具
Quick Prompt
Quick Prompt

一個專注于提示詞(Prompt)的管理和快速輸入的瀏覽器擴展插件...

FoldNFly
FoldNFly

一個專注于紙飛機折疊教程的網站,提供豐富的紙飛機設計資源、制作指...

VoiceCanvas
VoiceCanvas

一款文本轉語音工具,支持 50 多種語言,具備語音克隆功能,僅需...

Loud Fame
Loud Fame

一款AI視頻生成和編輯工具,能夠將普通視頻轉換為具有動漫風格的視...

PPT世界
PPT世界

QIJ鰭跡旗下產品,集PPT模板下載、設計教程、交流社區和定制服...

職達AI簡歷
職達AI簡歷

一個專業的 AI 簡歷優化平臺,提供簡歷&求職一站式服務...

喵記多APP
喵記多APP

快手推出的邊聊天邊記錄的AI筆記,主要功能包括管理筆記,如剪藏、...

暢圖
暢圖

一款由摹客推出的AI原生可視化工具,專為個人和團隊的創意表達、知...

Ztalk ai
Ztalk ai

一個AI驅動的會議實時語音翻譯平臺,可以與 Zoom、Googl...

Supercut
Supercut

一款屏幕錄制工具,能幫你快速錄下屏幕上的內容,錄制的視頻可以自動...

主站蜘蛛池模板: 射洪县| 乃东县| 武清区| 南安市| 张北县| 伊金霍洛旗| 张北县| 普兰店市| 邯郸县| 晋城| 昌都县| 龙口市| 西吉县| 利辛县| 西华县| 阿克苏市| 广饶县| 阳江市| 青海省| 三门峡市| 宁明县| 富平县| 商洛市| 洞口县| 平乐县| 调兵山市| 舒兰市| 梁平县| 贵溪市| 环江| 璧山县| 公主岭市| 阿拉善盟| 西林县| 军事| 建德市| 南汇区| 攀枝花市| 鄯善县| 彩票| 蒲城县|