StarVector:用于生成可縮放矢量圖形的開源多模態視覺模型
StarVector是什么?
StarVector 是一種由 ServiceNow Research、Mila - Quebec ai Institute 和 ETS Montreal 聯合開發的新型開源多模態視覺-語言模型,專門用于生成可縮放矢量圖形(SVG)。
StarVector核心功能
圖像到 SVG 的轉換(Image-to-SVG):能夠將圖像直接轉換為 SVG 代碼,實現圖像的矢量化。
文本到 SVG 的生成(Text-to-SVG):可以根據文本指令生成相應的 SVG 圖形。
StarVector技術特點
多模態架構:StarVector 采用多模態架構,能夠同時處理圖像和文本信息,將視覺和語言模型無縫集成。
直接操作 SVG 代碼空間:與一些中間表示方法不同,StarVector 直接在 SVG 代碼空間中操作,生成標準的、可編輯的 SVG 代碼。
大規模數據集訓練:StarVector 在包含超過 200 萬個 SVG 樣本的 SVG-Stack 數據集上進行訓練,確保模型能夠泛化到各種矢量化任務。
兩種規模模型:提供 StarVector-1B(包含 10 億參數)和 StarVector-8B(包含 80 億參數)兩種模型,以滿足不同計算資源和性能需求。
StarVector架構與原理
圖像編碼器:使用 Vision Transformer(ViT)處理圖像,將圖像分割成小塊并依次處理。
LLM 適配器:將圖像編碼器生成的嵌入向量非線性投影到視覺標記,以便與語言模型集成。
Transformer 解碼器架構:將視覺標記或文本標記序列映射到 SVG 代碼。
StarVector性能表現
在圖像到 SVG 和文本到 SVG 的任務中,StarVector 的性能優于現有模型,例如在 SVG-Bench 基準測試中,StarVector-8B 在多個指標上均優于 GPT-4 Vision(2023)和 Potrace 等模型。
在 SVG-Diagrams 數據集的圖像矢量化任務中,StarVector-8B 在 DinoScore 和 LPIPS 等指標上表現優異。
StarVector應用場景
設計與創意領域:幫助設計師快速生成 SVG 文件,提高設計效率。
技術繪圖與圖表生成:能夠生成復雜的技術圖表和圖形,適用于工程、科學等領域。
StarVector相關鏈接
項目地址:https://starvector.github.io/
StarVector GitHub 倉庫:https://github.com/starvector
StarVector 論文:https://arxiv.org/html/2312.11556v3