PrimitiveAnything:騰訊AIPD和清華大學(xué)聯(lián)合開發(fā)的新型3D形狀生成框架
PrimitiveAnything是什么?
PrimitiveAnything是騰訊人工智能平臺部(aiPD)和清華大學(xué)聯(lián)合開發(fā)的新型3D形狀生成框架。它能把復(fù)雜的 3D 形狀拆成簡單的部件,再重新組合成完整的形狀。這個工具生成的模型質(zhì)量高,能用不同的方式創(chuàng)作,還方便存儲和編輯。它用了一種清晰的參數(shù)化方法和自回歸架構(gòu),確保訓(xùn)練過程穩(wěn)定、準(zhǔn)確。它支持從文本或圖片生成 3D 內(nèi)容,還能靈活添加新的部件類型,適應(yīng)多種表示方式。
PrimitiveAnything主要功能
高質(zhì)量3D原語組裝生成:能生成高質(zhì)量的3D原語組裝,這些組裝在幾何上忠實于原始模型,還符合人類對形狀的直觀理解。
多樣化3D內(nèi)容創(chuàng)作:支持從文本或圖像條件生成3D內(nèi)容,為用戶提供了靈活的創(chuàng)作方式。
高效存儲和編輯:由于使用了原語表示,生成的3D模型在存儲上更加高效,同時易于編輯和調(diào)整。
自回歸變換器架構(gòu):通過自回歸變換器逐幀生成3D原語,能夠處理不同長度的原語序列,并且可以輕松擴(kuò)展到新的原語類型。
無歧義的參數(shù)化方案:通過消除參數(shù)化中的歧義,確保模型在訓(xùn)練和生成過程中保持穩(wěn)定性和準(zhǔn)確性。
幾何保真度與語義一致性:在生成過程中,保持了高幾何保真度,能生成符合人類認(rèn)知的語義分解結(jié)果。
模塊化設(shè)計:框架的模塊化設(shè)計支持無縫集成新的原語類型,無需修改架構(gòu),能適應(yīng)不同的原語表示。
技術(shù)原理
無歧義的參數(shù)化方案:使用多種類型的基元(如立方體、橢圓柱體和橢球體)在統(tǒng)一的參數(shù)化方案下共同表示3D形狀,為解決參數(shù)化中固有的歧義性,研究團(tuán)隊開發(fā)了一套全面的規(guī)則,通過分析基元的對稱性,選擇旋轉(zhuǎn)參數(shù)L1范數(shù)最小的一組作為唯一表示,確保了訓(xùn)練過程的穩(wěn)定性和準(zhǔn)確性。
自回歸變換器架構(gòu):采用基于解碼器的Transformer架構(gòu),能根據(jù)形狀特征生成可變長度的基元序列。首先通過點云編碼器提取3D形狀的特征表示,然后由自回歸Transformer模型接收這些形狀特征和之前生成的基元信息,預(yù)測下一個基元的特征。為建模基元屬性之間的依賴關(guān)系,使用級聯(lián)解碼器依次預(yù)測基元的類型、位置、旋轉(zhuǎn)和縮放等屬性,捕捉了基元屬性之間的自然相關(guān)性,與人類組裝邏輯相符。
自回歸生成流程:將整個基元抽象過程重新構(gòu)思為一個序列生成任務(wù),模型以點云作為輸入條件,然后自回歸地生成基元序列,直到預(yù)測出結(jié)束標(biāo)記為止。在訓(xùn)練過程中,結(jié)合了交叉熵?fù)p失、Chamfer距離(用于重構(gòu)準(zhǔn)確性)和Gumbel - Softmax(用于可微采樣),直到生成序列結(jié)束標(biāo)記。
性能表現(xiàn)
在涵蓋家具、交通工具、建筑等12個類別的測試集上,PrimitiveAnything展現(xiàn)出驚人性能。例如在倒角距離(CD)指標(biāo)上,傳統(tǒng)方法為0.82,現(xiàn)有SOTA為0.45,而PrimitiveAnything達(dá)到0.21;在體素IoU指標(biāo)上,傳統(tǒng)方法為68%,現(xiàn)有SOTA為75%,PrimitiveAnything為89% ;在分割一致性(SC)指標(biāo)上,傳統(tǒng)方法為0.63,現(xiàn)有SOTA為0.71,PrimitiveAnything為0.92;在存儲壓縮率上,傳統(tǒng)方法為1x,現(xiàn)有SOTA為3x,PrimitiveAnything達(dá)到15x。更值得關(guān)注的是其跨模態(tài)生成能力,在文本到3D的生成任務(wù)中,系統(tǒng)可以準(zhǔn)確理解“帶有弧形靠背的木質(zhì)餐椅”這類復(fù)雜描述,生成符合語義的基元組合結(jié)構(gòu)。
PrimitiveAnything應(yīng)用場景
3D建模與設(shè)計:能快速生成復(fù)雜的3D模型的“幾何骨架”,設(shè)計師可以在此基礎(chǔ)上專注于細(xì)節(jié)精修,提升了工作效率和設(shè)計速度。
游戲資產(chǎn)生成:游戲設(shè)計師可以用它快速生成各種游戲場景和角色模型,提高開發(fā)效率。玩家也能通過簡單的幾何積木拼接方式創(chuàng)造新的角色或道具,由AI自動進(jìn)行優(yōu)化調(diào)整,無縫集成到物理引擎中。
用戶生成內(nèi)容(UGC):框架支持從文本或圖像輸入生成3D內(nèi)容,用戶可以輕松編輯生成結(jié)果,為游戲中的UGC提供了新的可能性。
虛擬現(xiàn)實(VR)和增強(qiáng)現(xiàn)實(AR):在虛擬現(xiàn)實和增強(qiáng)現(xiàn)實環(huán)境中,可以快速生成逼真的3D對象,增強(qiáng)用戶體驗。
項目鏈接
項目官網(wǎng):https://primitiveanything.github.io/
Github倉庫:https://github.com/PrimitiveAnything/PrimitiveAnything-
HuggingFace模型庫:https://huggingface.co/hyz317/PrimitiveAnything
arXiv技術(shù)論文:https://arxiv.org/pdf/2505.04622