SceneSplat:斯坦福大學和谷歌聯合開發的開源3D場景理解工具
SceneSplat 是斯坦福大學和谷歌聯合開發的開源 3D 場景理解工具,主要讓 3D 高斯模型聽懂人類語言指令,實現從文字到 3D 場景的轉換。

SceneSplat技術原理
端到端視覺語言預訓練架構:通過同時學習語言描述和對應的 3D 場景,讓模型聽懂自然語言指令并轉化成 3D 場景。比如輸入“把書架放在靠窗的墻邊”,模型能自動識別關鍵信息并準確放到三維空間里。
跨模態特征對齊:把 3D 高斯表示和視覺語言模型結合,通過多尺度特征提取和跨模態注意力機制,提升對復雜語言指令的理解能力。
自監督學習方案:能從未標記的場景里學到更多 3D 特征。
SceneSplat數據集
SceneSplat - 7K:首個室內場景大規模 3DGS 數據集,有 7916 個場景,來自 ScanNet 和 Matterport3D 等七個現有數據集。生成這個數據集大約需要在 L4 GPU 上運行 150 天。
SceneSplat - 49K:包含多種來源的室內外場景,是目前最全的開源數據集,有復雜且高質量的完整場景級別 3DGS 重建內容,能推動可泛化 3DGS 場景理解發展。
SceneSplat優勢與特點
集成語義理解:首次在 3D 高斯模型里實現語義理解應用,突破了傳統 3D 圖形系統處理語義的局限。
原生運行在 3DGS 上:是首個能在 3DGS 上直接運行的大規模 3D 室內場景理解方法,避免了傳統方法數據轉換時的信息損失和計算延遲。
高效泛化能力:在開放詞匯和語義分割測試中達到了當前最優效果。
SceneSplat應用場景
AR/VR:能實時處理 3D 點云,用自然語言回答問題并精準定位,讓 AR/VR 交互更自然。
自動駕駛:幫自動駕駛系統更好理解復雜 3D 環境,提高決策準確性和安全性。
智能機器人:讓機器人聽懂人類指令,更精準完成任務。
3D 游戲開發:通過自然語言指令快速生成復雜 3D 環境,提升開發效率和游戲世界的動態生成能力。
相關資源
論文鏈接:https://arxiv.org/abs/2503.18052
項目主頁:https://unique1i.github.io/SceneSplat_webpage/
數據集:https://huggingface.co/datasets/GaussianWorld/scene_splat_7k
提交您的產品
Ai應用
Ai資訊
AI生圖
AI生視頻
FastbuildAI










