Stable Virtual Camera:使用一張圖片,可以生成360度旋轉的3D視頻
Stable Virtual Camera是什么?
Stable Virtual Camera 是由 Stability AI 推出的一款用于NVS 的多視角擴散模型。它能夠根據(jù)任意數(shù)量的輸入視角及其對應的相機參數(shù),生成目標相機視角下的新圖像。當所有相機形成一條軌跡時,生成的視角在 3D 上具有一致性、時間上平滑,并且正如其名稱所暗示的那樣——“穩(wěn)定”,能夠生成無縫的軌跡視頻。
Stable Virtual Camera功能
多視角輸入:可以接受從 1 到 32 張輸入圖像,性能隨著輸入視角的增加而提升,尤其是在處理大型場景時。
靈活的圖像分辨率:盡管模型僅在 576×576 的正方形圖像上進行訓練,但能夠以零樣本的方式生成不同寬高比的目標視角。
長視頻生成與閉環(huán)一致性:能夠生成長達 1000 幀的視頻,并在相機返回到同一位置時保持 3D 一致性。
采樣多樣性:在給定稀疏輸入視角時,能夠捕捉視角合成的不確定性,并生成不同的可能場景。
基準測試:建立了一個全面的基準,用于在不同數(shù)據(jù)集和設置下評估 NVS 方法。Stable Virtual Camera 達到了新的最佳性能。
Stable Virtual Camera應用
廣告和營銷:快速生成吸引人的產(chǎn)品展示視頻。
內(nèi)容創(chuàng)作:幫助藝術家和設計師將靜態(tài)圖像轉化為動態(tài)視頻。
教育和培訓:將教材中的靜態(tài)插圖轉化為 3D 視頻,增強學習體驗。
數(shù)字電影和 3D 動畫:為影視制作提供新的可能性。
Stable Virtual Camera使用方法
1. 獲取代碼和模型
代碼:從 GitHub 克隆代碼。鏈接見文章末尾。
模型權重:從 Hugging Face 下載模型文件。下載鏈接見文章末尾。
2. 安裝依賴
運行以下命令安裝所需依賴:
pip install -r requirements.txt
3. 運行方式
交互式使用(Gradio 演示)
啟動 Gradio 演示:
python gradio_demo.py
通過圖形界面上傳圖片并設置參數(shù),生成 3D 視頻。
命令行使用(CLI)
使用命令行運行:
python demo.py --data_path --output_path --camera_path
示例:
python demo.py --data_path ./input_images --output_path ./output_video --camera_path spiral
4. 輸入和輸出
輸入:支持 1 到 32 張 2D 圖像,需提供相機參數(shù)。
輸出:生成不同寬高比(如 1:1、9:16、16:9)的 3D 視頻,支持長達 1000 幀。
GitHub 代碼倉庫:https://github.com/Stability-ai/stable-virtual-camera
Hugging Face 模型頁面:https://huggingface.co/stabilityai/stable-virtual-camera
項目主頁:https://stable-virtual-camera.github.io/
論文:https://arxiv.org/abs/2503.14489