PartCrafter:單張圖像生成多個部件和對象的3D生成模型
PartCrafter是什么?
PartCrafter 是一個由北京大學、字節跳動和卡內基梅隆大學合作開發的新型 3D 生成工具。它可以從一張普通的 RGB 圖片中直接生成多個具有明確結構和形狀的 3D 網格部件。
核心功能
多部件生成:PartCrafter 能夠一次性從單張圖片中生成多個獨立的 3D 部件,不需要先對圖片進行分割處理。
部件級操作:生成的 3D 模型支持單獨編輯每個部件,比如調整位置、旋轉角度或縮放大小。
一鍵生成:用戶只需提供一張圖片,PartCrafter 就能直接生成復雜的 3D 場景。
高效生成:借助預訓練的 3D 網格擴散 Transformer(DiT),PartCrafter 的生成速度更快。
技術原理
組合式潛在空間:每個3D部件都用一組獨立的潛在令牌來表示。這樣一來,部件在生成的時候可以各自獨立發展,還能保留住部件級別的細節。
層次化注意力機制:這個機制能讓信息在單個部件內部以及各個部件之間有序流動,確保生成出來的東西整體上是一致的。
基于預訓練的3D網格擴散變換器(DiT):它繼承了預訓練的權重、編碼器和解碼器,這些都讓模型的生成能力更上一層樓。
端到端部件感知生成:只要有一張圖片,就能同時對多個3D部件進行去噪處理,實現從單個對象到復雜多對象場景的直接生成。
數據與訓練
數據集:從大規模 3D 數據集中提取部件級注釋,構建了一個包含約 5 萬個標注對象和 30 萬個獨立部件的數據集。
訓練方法:采用課程學習策略,逐步優化模型性能。
應用場景
游戲開發:能快速生成高質量的3D游戲資產,像角色、道具和場景這些。開發者只要給一張圖或者簡單描述一下,很快就能得到大量3D模型,大大加快游戲開發速度。
建筑和室內設計:可以快速生成建筑模型和室內裝飾方案。設計師把建筑圖紙或設計草圖上傳進去,馬上就能得到3D模型,方便做方案展示,讓客戶更清楚地理解設計想法。
影視制作:它有超高清幾何細節建模能力,還能通過多視圖輸入生成PBR模型,能給影視制作團隊提供高質量的3D模型素材。
性能表現
效率高:從單張圖片生成結構化的 3D 模型僅需約 40 秒。
精度高:部件生成精度和場景一致性分別比現有方法提高了 32% 和 28%。
項目鏈接
項目主頁:https://wgsxm.github.io/projects/partcrafter/
GitHub 倉庫:https://github.com/wgsxm/PartCrafter
論文地址:https://arxiv.org/abs/2506.05573