LHM:阿里推出的單張圖像重建出可動畫化的3D人體模型
LHM是什么?
LHM是由阿里巴巴通義實(shí)驗(yàn)室提出的用于從單張圖像重建可動畫化3D人體模型的技術(shù)。解決從單張圖像重建3D人體時的幾何、外觀和變形解耦問題,通俗地講,也就是只需提供一張照片,幾秒鐘就可創(chuàng)建出一個3D人體模型,這個人體模型可以做各種動作,衣服、頭發(fā)、面部等細(xì)節(jié)保持的很好,效果看起來非常逼真。
LHM技術(shù)亮點(diǎn)
多模態(tài)Transformer架構(gòu):
利用多模態(tài)Transformer架構(gòu),有效編碼人體位置特征和圖像特征。
通過注意力機(jī)制保留細(xì)節(jié),尤其是衣物的幾何形狀和紋理。
頭部特征金字塔編碼方案:
提出頭部特征金字塔編碼方案,聚合頭部區(qū)域的多尺度特征。
提升面部身份的保留和細(xì)節(jié)恢復(fù)能力。
3D高斯繪制(Gaussian Splatting):
將3D人體表示為高斯繪制,支持實(shí)時、逼真的渲染和姿態(tài)控制的動畫。
LHM方法流程
輸入圖像:從輸入圖像中提取身體和頭部的圖像標(biāo)記(tokens)。
多模態(tài)Transformer融合:利用提出的 Multimodal Body-Head Transformer (MBHT) 將3D幾何身體標(biāo)記與圖像標(biāo)記融合。
解碼為高斯參數(shù):經(jīng)過基于注意力的融合過程后,幾何身體標(biāo)記被解碼為高斯參數(shù)。
LHM實(shí)驗(yàn)結(jié)果
快速重建:LHM 能夠在數(shù)秒內(nèi)從單張圖像中重建出可動畫化的3D人體模型,無需后處理。
高精度與泛化能力:在合成數(shù)據(jù)集和真實(shí)場景數(shù)據(jù)集上的實(shí)驗(yàn)表明,LHM 在重建精度、泛化能力和動畫一致性方面達(dá)到了行業(yè)領(lǐng)先水平。
面部和手部細(xì)節(jié):LHM 能夠生成逼真的面部和手部細(xì)節(jié),優(yōu)于現(xiàn)有方法。
LHM特點(diǎn)
快速重建:LHM能夠在數(shù)秒內(nèi)從單張圖像中重建出可動畫化的3D人體模型,無需后處理。
高精度與泛化能力:在合成數(shù)據(jù)集和真實(shí)場景數(shù)據(jù)集上的實(shí)驗(yàn)表明,LHM在重建精度、泛化能力和動畫一致性方面達(dá)到了行業(yè)領(lǐng)先水平。
實(shí)時渲染與動畫控制:重建的模型支持實(shí)時渲染和姿態(tài)控制的動畫,適用于沉浸式AR/VR等應(yīng)用場景。
LHM應(yīng)用場景
元宇宙:為用戶提供個性化的3D虛擬形象,增強(qiáng)虛擬世界的沉浸感。
影視制作:快速生成高質(zhì)量的3D角色模型,提高制作效率。
游戲開發(fā):創(chuàng)建逼真的3D游戲角色,提升游戲的視覺效果。
相關(guān)鏈接
GitHub 代碼庫:https://github.com/aigc3d/LHM
項(xiàng)目主頁:https://lingtengqiu.github.io/LHM/