Cobra:開源AI上色模型,用于線稿上色,特別適用于漫畫上色。
Cobra 是什么?
Cobra 是一種新型高效的長上下文細粒度 ID 保持框架,用于線稿上色,特別適用于漫畫上色。 Cobra 通過整合廣泛的上下文參考圖像,將黑白線稿轉(zhuǎn)換為彩色插圖。Cobra 這個方法可以支持超過 200 張參考圖像,同時還可以保持低延遲,并提供靈活的用戶控制。
Cobra 方法
核心架構(gòu):Cobra 基于 Causal Sparse DiT 架構(gòu),利用特別設計的位置編碼、因果稀疏注意力和鍵值緩存(KV-Cache)來有效管理長上下文參考,確保顏色 ID 的一致性。
局部可重復使用的位置編碼:確保適當?shù)膶捀弑群头直媛省?/p>
因果稀疏注意力:通過減少參考圖像之間的成對計算,降低計算復雜度,同時結(jié)合 KV-Cache 提高計算效率。
Cobra 實驗結(jié)果
定性結(jié)果:Cobra 在復雜場景中能夠準確保留顏色 ID,并提供高質(zhì)量的上色結(jié)果。
定量比較:與現(xiàn)有的漫畫上色方法(如 CLIP-IS、FID、PSNR、SSIM 和 AS 指標)相比,Cobra 在線稿和帶陰影的線稿上色方面表現(xiàn)出色。
參考圖像數(shù)量的影響:隨著參考圖像數(shù)量的增加,Cobra 的性能持續(xù)提升。
推理時間效率:因果稀疏注意力(結(jié)合 KV-Cache)在不同參考圖像數(shù)量下表現(xiàn)出更高的效率。
Cobra 應用場景
交互式線稿上色:用戶可以通過顏色提示靈活控制上色結(jié)果。
線稿上色:適用于簡單的線稿。
帶陰影的線稿上色:在復雜場景中保持顏色保真度和細節(jié)。
線稿視頻上色:支持動態(tài)內(nèi)容的上色。
Cobra 常見問題
問:Cobra 與其他線稿上色方法相比,優(yōu)勢主要體現(xiàn)在哪些方面?
答:Cobra 優(yōu)勢體現(xiàn)在定性和定量兩方面。定性上,能在復雜場景準確保留顏色 ID,處理帶陰影線稿時保持顏色保真度并增強細節(jié);定量上,在 CLIP-IS、FID、PSNR、SSIM、AS 等指標上表現(xiàn)更優(yōu),且推理時間效率更高。
問:Cobra 中的因果稀疏 DiT 架構(gòu)是如何提高計算效率的?
答:因果稀疏 DiT 架構(gòu)通過減少參考圖像間的成對計算,應用單向因果注意力,以及使用 KV 緩存來提高計算效率。減少成對計算降低了計算復雜度,單向因果注意力和 KV 緩存確保在高效計算的同時有效傳遞關(guān)鍵顏色 ID 信息。
問:參考圖像數(shù)量對 Cobra 性能有怎樣的影響?
答:隨著參考圖像數(shù)量增加,Cobra 的性能呈現(xiàn)持續(xù)提升的趨勢。如 CLIP-IS 指標從參考圖像數(shù)量為 4 時的 0.9083 提升到 36 時的 0.9183,F(xiàn)ID 指標從 23.18 下降到 20.64 等,PSNR、SSIM、AS 等指標也有相應的提升。
相關(guān)鏈接
項目主頁:https://zhuang2002.github.io/Cobra/
Github:https://github.com/Zhuang2002/Cobra
論文:https://arxiv.org/abs/2504.12240