微軟MineWorld:基于《我的世界》的實時開源交互式世界模型
MineWorld是什么?
MineWorld是微軟于2025年4月14日開源的基于《我的世界》(Minecraft)的實時交互式世界模型,其目標是為智能體構建可感知、可推理、可行動的動態環境。
MineWorld技術特點
視覺-動作自回歸 Transformer:MineWorld 利用視覺-動作自回歸 Transformer 驅動模型,將游戲場景和動作轉化為離散的 token ID,然后通過下一個 token 預測進行訓練。
并行解碼算法:開發了一種新穎的并行解碼算法,可同時預測每幀中的空間冗余 token,讓不同規模的模型每秒生成 4 至 7 幀,實現與游戲玩家的實時互動。
輸入與輸出:模型以游戲場景的初始圖像和用戶選擇的動作作為輸入,生成相應的下一個場景。
評估指標:提出了新的評估指標,不僅可以評估視覺質量,還可以評估生成新場景時的動作跟隨能力。
MineWorld應用
具身智能研究:為具身智能研究提供了一個復雜且動態的虛擬測試平臺。
強化學習訓練:可用于強化學習的訓練,幫助智能體在模擬環境中學習和適應。
交互式 ai 代理測試:為交互式 AI 代理的測試提供了一個實時的、可交互的環境。
MineWorld使用方式
Web Demo:用戶可以通過運行特定命令啟動網頁游戲,通過本地或公共 URL 訪問。用戶可以選擇初始幀、控制相機移動,并執行游戲動作,如跳躍、移動等。
本地運行:用戶也可以在本地運行模型,以復現論文中的評估結果。
MineWorld適用范圍與限制
適用范圍:MineWorld 專門針對《我的世界》游戲領域訓練,僅適用于生成與游戲相關的場景。
限制:
無法生成其他視頻領域的結果(如互聯網視頻)。
生成的視頻分辨率有限,可能導致細節信息丟失。
模型可能繼承訓練數據中的偏差、錯誤或遺漏。
需要進一步測試和驗證,才能考慮在商業或現實場景中應用。
MineWorld安裝使用
1. 環境配置:
克隆倉庫:
git clone https://github.com/microsoft/mineworld.git cd mineworld
創建并激活 Conda 環境:
conda create -n mineworld python=3.10 conda activate mineworld pip3 install -r requirements.txt
推薦使用高性能 GPU(如 A100 或 H100)進行推理。
2. 下載預訓練模型:
下載預訓練模型和相關配置文件,放置在 checkpoints 文件夾中。
數據結構如下:
├── checkpoints │ ├── 300M_16f.ckpt │ ├── 700M_16f.ckpt │ ├── 700M_32f.ckpt │ ├── 1200M_16f.ckpt │ └── 1200M_32f.ckpt │ └── vae │ ├── config.json │ └── vae.ckpt ├── validation │ └── validation.zip └── gradio_scene ├── scene.mp4 └── scene.jsonl
3. 運行 Web Demo:
使用以下命令啟動 Web Demo:
python mineworld.py --scene "path/to/scene.mp4" --model_ckpt "path/to/ckpt" --config "path/to/config"
訪問本地或公共 URL,通過網頁進行交互。
可以選擇初始幀、控制相機移動,并執行游戲動作(如跳躍、移動等)。
4. 本地推理:
使用以下命令進行本地推理:
python inference.py --data_root "/path/to/validation/dataset" --model_ckpt "path/to/ckpt" --config "path/to/config" --demo_num 1 --frames 15 --accelerate-algo 'naive' --top_p 0.8 --output_dir "path/to/output"
計算評估指標:
bash scripts/setup_metrics.sh bash scripts/compute_metrics.sh
github:https://github.com/microsoft/MineWorld
相關文章
- 用戶登錄