ImmerseGen:字節(jié)跳動(dòng)和浙江大學(xué)聯(lián)合開發(fā)的3D場(chǎng)景生成框架
ImmerseGen是什么?
ImmerseGen是字節(jié)跳動(dòng)和浙江大學(xué)聯(lián)合開發(fā)的3D場(chǎng)景生成框架,它利用代理引導(dǎo)和RGBA紋理合成技術(shù),根據(jù)用戶提供的文字描述,比如“生成一個(gè)秋天的自然景色”,生成真實(shí)感十足的VR場(chǎng)景,尤其適合實(shí)時(shí)渲染VR頭顯,用戶對(duì)復(fù)雜資產(chǎn)的依賴大大減少,同時(shí)保證了場(chǎng)景的多變性和真實(shí)感。
功能亮點(diǎn)
輕量高效:分層幾何代理和RGBA紋理合成,實(shí)現(xiàn)高效率場(chǎng)景建模。
自動(dòng)生成:結(jié)合地形條件紋理和視覺語言模型(VLM),實(shí)現(xiàn)高自動(dòng)化程度的VR場(chǎng)景生成。
視覺感受佳:在能保證逼真度、空間一致性、渲染效率方面,領(lǐng)先于已知技術(shù)。
適用面廣:移動(dòng)VR設(shè)備均適用,為相關(guān)領(lǐng)域提供高質(zhì)量的3D場(chǎng)景生成方案。
方法流程
基礎(chǔ)地形:基于用戶輸入,檢索基礎(chǔ)地形,然后地形條件紋理合成RGBA地形紋理、天空盒,形成基礎(chǔ)世界。
輕量資產(chǎn):用VLM選擇合適模板,設(shè)計(jì)資產(chǎn)提示,確定場(chǎng)景內(nèi)資產(chǎn)布局,資產(chǎn)通過上下文豐富的RaystexturedComposite實(shí)例化為alpha-textured資產(chǎn)。
多模態(tài)沉浸感增強(qiáng):基于動(dòng)態(tài)視覺效果和環(huán)境音,進(jìn)一步增強(qiáng)沉浸感。
應(yīng)用實(shí)例
VR和AR:用于游戲開發(fā)、虛擬旅游、教育培訓(xùn),為場(chǎng)景、關(guān)卡快速生成提供沉浸式體驗(yàn)。
建筑房地產(chǎn):應(yīng)用于虛擬看房、建筑設(shè)計(jì),方便客戶理解、反饋3D模型。
影視動(dòng)畫:用于特效制作和場(chǎng)景設(shè)計(jì),減少拍攝需求,提供視覺效果。
社交媒體和內(nèi)容創(chuàng)作:提供虛擬背景和高質(zhì)量的3D場(chǎng)景,用于虛擬視頻通話、直播、內(nèi)容創(chuàng)作。
模擬和訓(xùn)練:用于軍事訓(xùn)練、醫(yī)療培訓(xùn),研發(fā)逼真的戰(zhàn)場(chǎng)、醫(yī)療空間。
零售電子商務(wù):生成虛擬商店和商品3D模型,提高購(gòu)物體驗(yàn)、商品展示效果。
常見問答
1. ImmerseGen是怎么實(shí)現(xiàn)高效的VR場(chǎng)景生成的?
答:分三步走;生成基礎(chǔ)世界,使用代理引導(dǎo)技術(shù)進(jìn)行資產(chǎn)設(shè)計(jì)、布局,最后通過動(dòng)態(tài)效果和環(huán)境音增強(qiáng)沉浸感。關(guān)鍵是用alpha紋理代理代替復(fù)雜資產(chǎn),降低計(jì)算復(fù)雜度,支持VR頭顯實(shí)時(shí)渲染。
2. 資產(chǎn)代理,有何用處?
答:資產(chǎn)代理基于視覺語言模型(VLM),選擇合適模板,為資產(chǎn)生成提示詞、確定水平剖面,保證資產(chǎn)與上下文的相融性,自動(dòng)進(jìn)行資產(chǎn)設(shè)計(jì)與排列。
3. ImmerseGen相比經(jīng)典VR場(chǎng)景生成技術(shù),有何優(yōu)點(diǎn)?
答:經(jīng)典技術(shù)依賴復(fù)雜的3D資產(chǎn),而ImmerseGen用代理引導(dǎo)的alpha紋理代理,大幅度降低了復(fù)雜資產(chǎn)的依賴性,同時(shí)用地形條件紋理合成等,保證場(chǎng)景的真實(shí)性、場(chǎng)景的多樣性,支持在VR頭顯下完成實(shí)時(shí)渲染,提高用戶體驗(yàn)流暢度。
項(xiàng)目地址
https://immersegen.github.io/
相關(guān)文章
- 用戶登錄