
Zero123
Zero123簡介
今天,我們發布了穩定版 Zero123,這是我們內部訓練的模型,用于生成視圖條件圖像。與之前最先進的 Zero123-XL 相比,穩定的 Zero123 產生了顯著改善的結果。這是通過 3 項關鍵創新實現的:
1、改進的訓練數據集,從 Objaverse 中大量過濾,只保留高質量的 3D 對象,我們渲染的對象比以前的方法更加真實。
2、在訓練和推理過程中,我們為模型提供了估計的攝像機角度。這種海拔調節使其能夠做出更明智、更高質量的預測。
3、預先計算的數據集(預先計算的潛在變量)和改進的數據加載器支持更高的批量大小,與第一個創新相結合,與 Zero123-XL 相比,訓練效率提高了 40 倍。
Zero123特征:
穩定的 Zero123 可以生成物體的新穎視圖,展示從各個角度對物體外觀的 3D 理解,由于訓練數據集和高程條件的改進,其質量比 Zero1-to-3 或 Zero123-XL 顯著提高。
該模型基于穩定擴散 1.5,消耗與 SD1.5 相同數量的 VRAM 來生成 1 個新視圖。使用 Stable Zero123 生成 3D 對象需要更多時間和內存(建議使用 24GB VRAM)。
為了實現 3D 對象生成方面的開放研究,我們改進了 Threestudio 開源代碼的開源代碼,以支持 Zero123 和 Stable Zero123。 Stable 3D 流程的簡化版本目前處于私人預覽階段。從技術角度來說,這使用分數蒸餾采樣 (SDS) 來使用穩定的 Zero123 模型來優化 NeRF,稍后我們可以從中創建紋理 3D 網格。該過程可以適用于文本到 3D 生成,首先使用 SDXL 生成單個圖像,然后使用 Stable Zero123 生成 3D 對象。
Zero123項目:https://github.com/cvlab-columbia/zero123
Zero123試用:https://huggingface.co/spaces/cvlab/zero123-live
Zero123論文:https://arxiv.org/abs/2303.11328
該模型現已發布在 Hugging Face 上,研究人員和非商業用戶可以下載并進行實驗。