PrimitiveAnything:騰訊AIPD和清華大學聯合開發的新型3D形狀生成框架
PrimitiveAnything是什么?
PrimitiveAnything是騰訊人工智能平臺部(aiPD)和清華大學聯合開發的新型3D形狀生成框架。它能把復雜的 3D 形狀拆成簡單的部件,再重新組合成完整的形狀。這個工具生成的模型質量高,能用不同的方式創作,還方便存儲和編輯。它用了一種清晰的參數化方法和自回歸架構,確保訓練過程穩定、準確。它支持從文本或圖片生成 3D 內容,還能靈活添加新的部件類型,適應多種表示方式。
PrimitiveAnything主要功能
高質量3D原語組裝生成:能生成高質量的3D原語組裝,這些組裝在幾何上忠實于原始模型,還符合人類對形狀的直觀理解。
多樣化3D內容創作:支持從文本或圖像條件生成3D內容,為用戶提供了靈活的創作方式。
高效存儲和編輯:由于使用了原語表示,生成的3D模型在存儲上更加高效,同時易于編輯和調整。
自回歸變換器架構:通過自回歸變換器逐幀生成3D原語,能夠處理不同長度的原語序列,并且可以輕松擴展到新的原語類型。
無歧義的參數化方案:通過消除參數化中的歧義,確保模型在訓練和生成過程中保持穩定性和準確性。
幾何保真度與語義一致性:在生成過程中,保持了高幾何保真度,能生成符合人類認知的語義分解結果。
模塊化設計:框架的模塊化設計支持無縫集成新的原語類型,無需修改架構,能適應不同的原語表示。
技術原理
無歧義的參數化方案:使用多種類型的基元(如立方體、橢圓柱體和橢球體)在統一的參數化方案下共同表示3D形狀,為解決參數化中固有的歧義性,研究團隊開發了一套全面的規則,通過分析基元的對稱性,選擇旋轉參數L1范數最小的一組作為唯一表示,確保了訓練過程的穩定性和準確性。
自回歸變換器架構:采用基于解碼器的Transformer架構,能根據形狀特征生成可變長度的基元序列。首先通過點云編碼器提取3D形狀的特征表示,然后由自回歸Transformer模型接收這些形狀特征和之前生成的基元信息,預測下一個基元的特征。為建?;獙傩灾g的依賴關系,使用級聯解碼器依次預測基元的類型、位置、旋轉和縮放等屬性,捕捉了基元屬性之間的自然相關性,與人類組裝邏輯相符。
自回歸生成流程:將整個基元抽象過程重新構思為一個序列生成任務,模型以點云作為輸入條件,然后自回歸地生成基元序列,直到預測出結束標記為止。在訓練過程中,結合了交叉熵損失、Chamfer距離(用于重構準確性)和Gumbel - Softmax(用于可微采樣),直到生成序列結束標記。
性能表現
在涵蓋家具、交通工具、建筑等12個類別的測試集上,PrimitiveAnything展現出驚人性能。例如在倒角距離(CD)指標上,傳統方法為0.82,現有SOTA為0.45,而PrimitiveAnything達到0.21;在體素IoU指標上,傳統方法為68%,現有SOTA為75%,PrimitiveAnything為89% ;在分割一致性(SC)指標上,傳統方法為0.63,現有SOTA為0.71,PrimitiveAnything為0.92;在存儲壓縮率上,傳統方法為1x,現有SOTA為3x,PrimitiveAnything達到15x。更值得關注的是其跨模態生成能力,在文本到3D的生成任務中,系統可以準確理解“帶有弧形靠背的木質餐椅”這類復雜描述,生成符合語義的基元組合結構。
PrimitiveAnything應用場景
3D建模與設計:能快速生成復雜的3D模型的“幾何骨架”,設計師可以在此基礎上專注于細節精修,提升了工作效率和設計速度。
游戲資產生成:游戲設計師可以用它快速生成各種游戲場景和角色模型,提高開發效率。玩家也能通過簡單的幾何積木拼接方式創造新的角色或道具,由AI自動進行優化調整,無縫集成到物理引擎中。
用戶生成內容(UGC):框架支持從文本或圖像輸入生成3D內容,用戶可以輕松編輯生成結果,為游戲中的UGC提供了新的可能性。
虛擬現實(VR)和增強現實(AR):在虛擬現實和增強現實環境中,可以快速生成逼真的3D對象,增強用戶體驗。
項目鏈接
項目官網:https://primitiveanything.github.io/
Github倉庫:https://github.com/PrimitiveAnything/PrimitiveAnything-
HuggingFace模型庫:https://huggingface.co/hyz317/PrimitiveAnything
arXiv技術論文:https://arxiv.org/pdf/2505.04622
相關文章
- 用戶登錄