OmniSVG:復旦大學和StepFun聯合推出的開源多模態SVG生成模型
OmniSVG是什么?
OmniSVG是由復旦大學和StepFun聯合推出的開源多模態SVG生成模型,能夠通過文本、圖像或角色參考生成高質量矢量圖形,于2025年4月9日正式發布。
OmniSVG技術原理
OmniSVG 基于預訓練的視覺-語言模型(VLM)Qwen-VL 構建,并創新性地集成了 SVG 標記化器。通過將 SVG 命令和坐標參數化為離散的令牌(tokens),OmniSVG 成功地將矢量圖形的結構邏輯與低級幾何細節解耦。這種設計不僅提高了訓練效率,還將訓練速度提升了3倍以上,同時保留了生成復雜 SVG 結構的能力。
OmniSVG生成模式
文本生成SVG:用戶可以通過自然語言描述生成語義相關的矢量圖形,例如輸入“坐在櫻花樹下的卡通貓”。
圖像生成SVG:自動將位圖(如照片或手繪草圖)轉換為由路徑組成的矢量圖形,保留原始圖像的視覺特征,同時獲得可編輯性。
角色參考SVG:基于現有角色圖像生成具有相同角色特征但姿勢或場景不同的矢量圖形,對動畫和游戲角色設計特別有價值。
數據集與評估協議
為了推動 SVG 生成技術的發展,OmniSVG 團隊發布了 MMSVG-2M 數據集。這是一個包含200萬個豐富注釋的 SVG 資源的多模態數據集,涵蓋圖標、插圖和角色三大子集。此外,他們還提出了一個標準化的評估協議 MMSVG-Bench,用于測試條件 SVG 生成任務的性能。
OmniSVG優勢
與傳統方法相比,OmniSVG 克服了以往 SVG 生成技術的一些核心難題:
傳統方法往往生成結構松散、計算成本高昂的結果,或者局限于單色、過于簡化的圖標。
OmniSVG 通過端到端的多模態生成框架,顯著提升了生成質量和復雜性,能夠生成色彩豐富、細節生動的矢量圖形。
OmniSVG應用場景
適用于UI/UX設計、動漫角色創作、工業CAD等場景
生成SVG可直接編輯,支持無限放大不失真
項目地址:https://omnisvg.github.io/
代碼倉庫:https://github.com/OmniSVG/OmniSVG
論文地址:https://arxiv.org/pdf/2504.06263