Cobra:開源AI上色模型,用于線稿上色,特別適用于漫畫上色。
Cobra 是什么?
Cobra 是一種新型高效的長上下文細粒度 ID 保持框架,用于線稿上色,特別適用于漫畫上色。 Cobra 通過整合廣泛的上下文參考圖像,將黑白線稿轉換為彩色插圖。Cobra 這個方法可以支持超過 200 張參考圖像,同時還可以保持低延遲,并提供靈活的用戶控制。
Cobra 方法
核心架構:Cobra 基于 Causal Sparse DiT 架構,利用特別設計的位置編碼、因果稀疏注意力和鍵值緩存(KV-Cache)來有效管理長上下文參考,確保顏色 ID 的一致性。
局部可重復使用的位置編碼:確保適當的寬高比和分辨率。
因果稀疏注意力:通過減少參考圖像之間的成對計算,降低計算復雜度,同時結合 KV-Cache 提高計算效率。
Cobra 實驗結果
定性結果:Cobra 在復雜場景中能夠準確保留顏色 ID,并提供高質量的上色結果。
定量比較:與現有的漫畫上色方法(如 CLIP-IS、FID、PSNR、SSIM 和 AS 指標)相比,Cobra 在線稿和帶陰影的線稿上色方面表現出色。
參考圖像數量的影響:隨著參考圖像數量的增加,Cobra 的性能持續提升。
推理時間效率:因果稀疏注意力(結合 KV-Cache)在不同參考圖像數量下表現出更高的效率。
Cobra 應用場景
交互式線稿上色:用戶可以通過顏色提示靈活控制上色結果。
線稿上色:適用于簡單的線稿。
帶陰影的線稿上色:在復雜場景中保持顏色保真度和細節。
線稿視頻上色:支持動態內容的上色。
Cobra 常見問題
問:Cobra 與其他線稿上色方法相比,優勢主要體現在哪些方面?
答:Cobra 優勢體現在定性和定量兩方面。定性上,能在復雜場景準確保留顏色 ID,處理帶陰影線稿時保持顏色保真度并增強細節;定量上,在 CLIP-IS、FID、PSNR、SSIM、AS 等指標上表現更優,且推理時間效率更高。
問:Cobra 中的因果稀疏 DiT 架構是如何提高計算效率的?
答:因果稀疏 DiT 架構通過減少參考圖像間的成對計算,應用單向因果注意力,以及使用 KV 緩存來提高計算效率。減少成對計算降低了計算復雜度,單向因果注意力和 KV 緩存確保在高效計算的同時有效傳遞關鍵顏色 ID 信息。
問:參考圖像數量對 Cobra 性能有怎樣的影響?
答:隨著參考圖像數量增加,Cobra 的性能呈現持續提升的趨勢。如 CLIP-IS 指標從參考圖像數量為 4 時的 0.9083 提升到 36 時的 0.9183,FID 指標從 23.18 下降到 20.64 等,PSNR、SSIM、AS 等指標也有相應的提升。
相關鏈接
項目主頁:https://zhuang2002.github.io/Cobra/
Github:https://github.com/Zhuang2002/Cobra
論文:https://arxiv.org/abs/2504.12240