TripoSG:一款能夠從單張輸入圖像生成高細(xì)節(jié)的3D模型
TripoSG是什么?
TripoSG 是由VAST-ai-Research 團(tuán)隊(duì)開發(fā)的開源高保真3D形狀合成技術(shù),基于大規(guī)模校正流架構(gòu)和混合專家Transformer 設(shè)計(jì),能夠從單張輸入圖像生成高細(xì)節(jié)的3D模型。
TripoSG主要功能
高保真生成:生成的 3D 網(wǎng)格具有銳利的幾何特征、精細(xì)的表面細(xì)節(jié)和復(fù)雜的結(jié)構(gòu)。
語義一致性:生成的形狀能準(zhǔn)確反映輸入圖像的語義和外觀。
強(qiáng)泛化能力:能處理多種輸入風(fēng)格,包括照片級真實(shí)圖像、卡通和草圖。
穩(wěn)健的性能:對于具有復(fù)雜拓?fù)浣Y(jié)構(gòu)的挑戰(zhàn)性輸入,也能創(chuàng)建連貫的形狀。
TripoSG技術(shù)原理
大規(guī)模修正流變換器:TripoSG 首次將基于校正流(Rectified Flow, RF)的 Transformer 架構(gòu)應(yīng)用于 3D 形狀生成。與傳統(tǒng)的擴(kuò)散模型相比,RF 提供了從噪聲到數(shù)據(jù)之間更簡潔的線性路徑建模,有助于實(shí)現(xiàn)更穩(wěn)定、高效的訓(xùn)練。
混合監(jiān)督訓(xùn)練策略:結(jié)合符號距離函數(shù)(SDF)、法線和 Eikonal 損失,顯著提升了 3D 變分自編碼器(VAE)的重建性能。
高質(zhì)量數(shù)據(jù)處理流程:開發(fā)了完善的數(shù)據(jù)構(gòu)建與治理流水線,包括質(zhì)量評分、數(shù)據(jù)篩選、修復(fù)與增強(qiáng)、SDF 數(shù)據(jù)生產(chǎn)等環(huán)節(jié)。通過這一流程,構(gòu)建了一個(gè)包含 200 萬高質(zhì)量“圖像-SDF”訓(xùn)練樣本對的數(shù)據(jù)集。
高效的 VAE 架構(gòu):使用 SDF 進(jìn)行幾何表示,相較于此前常用的體素占用柵格具有更高的精度。
MoE Transformer 模型:TripoSG 是首個(gè)在 3D 領(lǐng)域發(fā)布的 MoE Transformer 模型。
TripoSG應(yīng)用場景
游戲與影視:快速生成游戲資產(chǎn)或 3D 特效元素,縮短開發(fā)周期。
工業(yè)與電商:將草圖或?qū)嵨镎掌D(zhuǎn)化為 3D 模型,用于產(chǎn)品預(yù)覽或虛擬展示。
教育與文化遺產(chǎn):創(chuàng)建交互式教學(xué)模型或數(shù)字化文物,降低 3D 內(nèi)容創(chuàng)作門檻。
TripoSG使用教程
1. 安裝:
克隆倉庫并創(chuàng)建 conda 環(huán)境:
git clone https://github.com/VAST-AI-Research/TripoSG.git cd TripoSG conda create -n tripoSG python=3.10 conda activate tripoSG
安裝依賴:
pip install torch torchvision --index-url https://download.pytorch.org/whl/{your-cuda-version} pip install -r requirements.txt
2. 快速開始:從圖像生成 3D 網(wǎng)格:
python scripts/inference_triposg.py --image-input assets/example_data/hjswed.png
相關(guān)鏈接
項(xiàng)目主頁:https://yg256li.github.io/TripoSG-Page/
GitHub 源碼:https://github.com/VAST-AI-Research/TripoSG
Hugging Face 模型:https://huggingface.co/VAST-AI/TripoSG
Hugging Face 演示:https://huggingface.co/spaces/VAST-AI/TripoSG
論文:https://arxiv.org/abs/2502.06608