Matrix-Game:昆侖萬維正式開源的17B+交互式世界基礎模型
Matrix-Game是什么?
Matrix-Game是昆侖萬維在2025年5月13日正式開源的17B+交互式世界基礎模型,也是工業界首個開源的10B+空間智能大模型。
Matrix-Game核心特點
交互式世界生成:Matrix-Game是一個面向游戲世界建模的交互式世界基礎模型,用戶可以通過簡單的鍵盤指令、鼠標移動等操作,自由探索、操控甚至創造出細節豐富、物理規則合理的虛擬世界。
高精度控制:在控制性能上,Matrix-Game可實現“運動”“攻擊”等動作高達90%+準確率,在細粒度視角控制下依然保持高精度響應。
多場景泛化能力:Matrix-Game在8大典型Minecraft場景中全面領先,展現出卓越的環境適應性與泛化能力,有潛力泛化到非Minecraft游戲環境。
自回歸式長視頻生成:支持自回歸式的長視頻生成,實現動作與視角之間的絲滑銜接,確保時間一致性與環境適應性。
系統化評估:提出了統一的GameWorldScore標準,從視頻的視覺質量、時序質量、動作可控性與物理規則理解四個維度全面量化模型性能。
核心組成部分
Matrix-Game-MC數據集:自主構建的大規模交互世界數據集,包含大規模無標簽的Minecraft游戲視頻和帶有鍵盤與鼠標控制信號的Minecraft與Unreal可控視頻數據,具備精細的動作注釋。
Matrix-Game主模型:基于先進的擴散模型技術,構建了一個從圖像到世界的生成框架,能夠根據用戶的輸入生成連貫且可控的互動視頻。
GameWorldScore評測體系:從視頻的視覺質量、時序質量、動作可控性和物理規則理解四個維度全面量化模型性能,填補了該領域缺乏系統性評測基準的空白。
Matrix-Game技術原理
兩階段訓練策略:第一階段利用大規模無標簽的Minecraft游戲視頻數據進行預訓練,讓模型學習環境的基本特征和動態規律;第二階段用帶有鍵盤與鼠標控制信號的Minecraft與Unreal可控視頻數據進行細粒度的可控訓練,讓模型根據用戶的輸入生成相應的交互式視頻。
圖像到世界建模:以單張參考圖像作為生成交互式視頻的起點,不依賴語言提示,基于視覺信號建??臻g幾何、物體運動及其物理交互。
自回歸式視頻生成:支持自回歸方式擴展生成長度,每次用前一視頻片段的最后幾幀作為運動上下文,逐段遞進生成,確保時間上的連貫性。訓練中引入隨機擾動、隨機刪除及Classifier-freeguidance策略,緩解時序漂移和誤差累積。
可控交互設計:鍵盤動作用離散token表達,視角移動動作用連續token表達,基于GameFactory的控制模塊,融入多模態DiffusionTransformer架構,用Classifier-freeguidance策略提升對控制信號的魯棒響應能力。
Matrix-Game應用場景
虛擬游戲世界快速搭建:通過模型的可控生成能力,可低成本、高效率地創建多樣化、結構合理的游戲地圖與交互環境,提升關卡設計與任務構建的自由度。
影視與元宇宙內容生產:支持高保真、物理一致的動態場景合成,為沉浸式體驗開發與創意內容生成提供通用世界建?;A。
具身智能體訓練與數據生成:盡管當前模型未直接用于具身智能,但Matrix-Game具備生成大規模交互視頻的能力,具備擴展至具身智能體訓練與評估的潛力,可以為智能體創建多樣復雜的虛擬環境,幫助助其任務執行與推理能力的提升。
Matrix-Game模型優勢
細粒度用戶交互控制:支持多種細節操作,能根據用戶輸入準確自然地響應。
高保真視覺與物理一致性:生成結果視覺連貫且遵循物理規律。
多場景泛化能力:對多種 Minecraft 游戲場景有泛化能力,且有向非 Minecraft 游戲環境泛化的潛力。
系統化評估體系:GameWorld Score 標準為模型的客觀評估與持續優化提供有力支撐。
項目鏈接
項目官網:https://matrix-game-homepage.github.io/
GitHub倉庫:https://github.com/Skyworkai/Matrix-Game
HuggingFace模型庫:https://huggingface.co/Skywork/Matrix-Game
技術論文:https://github.com/SkyworkAI/Matrix-Game/blob/main/assets/report.pdf