Ovis:阿里國際發布的最新開源多模態模型
阿里國際于2024年9月19日發布了最新的多模態大模型Ovis,Ovis模型在多個領域展現出色的能力,特別是在數學推理問答、物體識別、文本提取和復雜任務決策等方面。
根據多模態評測平臺OpenCompass的數據,Ovis1.6-Gemma2-9B版本在OpenCompass這一權威綜合評測基準上,超越了多個知名開源模型,包括Qwen2VL-7B、InternVL2-26B和MiniCPM-V-2.6,在300億參數以下的開源模型中位居第一。值得注意的是,Ovis在某些任務上的表現甚至超過了閉源的大型模型GPT-4o-mini。
Ovis的核心能力:
多模態任務處理:Ovis能夠出色地完成視覺感知推理、數學和科學理解、生活場景分析等多模態任務。它不僅能夠輔助理解復雜的數學概念,還能幫助分析財務報表,甚至根據圖片指導烹飪過程,如制作炸魚薯條。
技術細節:Ovis的設計亮點在于其結構上對齊視覺和文本嵌入的方式,通過引入可學習的視覺嵌入表,將連續視覺特征轉換為概率化的token,再生成結構化的視覺嵌入,這克服了傳統多模態模型中視覺與文本信息融合的限制。
性能與優勢:Ovis在數學推理和視覺理解等任務中的得分表現出色,甚至媲美一些參數量級更高的模型。它在幻覺現象和錯誤率方面的控制也優于同級別模型,確保了高文本質量和準確度。
開源與商用友好:遵循Apache 2.0開源協議,Ovis的開源使得其在商業應用上非常友好,鼓勵更廣泛的應用和二次開發。
架構創新:Ovis通過創新的架構設計,包括動態子圖方案,支持處理極端長寬比和高分辨率圖像,以及全面數據優化策略,覆蓋Caption、VQA、OCR、Table、Chart等多種多模態數據方向,從而提升了多模態任務的綜合表現。
Ovis應用案例:
圖像識別與處理:Ovis能準確識別手寫內容并翻譯,處理復雜的數學公式,比如通過圖片識別給出詳細的菜譜制作步驟。
自動駕駛:整合攝像頭、雷達和激光雷達的數據。
醫療診斷:用于圖像分析和診斷支持。
視頻內容理解:分析和生成視頻內容。
圖像描述生成:自動生成圖像描述。
視覺問答:支持多種語言的文本提取和問答。
Ovis開源信息:
Ovis系列模型License采用Apache 2.0。
Ovis 1.0、1.5的數據、模型、訓練和推理代碼已開源。
Ovis1.6系列中的Ovis1.6-Gemma2-9B也已開源權重。
開發者可以在GitHub上獲取模型和代碼。
開源代碼可用于商用和改進。
Ovis技術優勢:
創新架構設計:克服MLLM中MLP連接器架構的局限性。
高分圖像處理:兼容高分辨率圖像。
全面數據優化:顯著提升多模態問答、指令跟隨等任務表現。
卓越模型性能:在OpenCompass上綜合排名第一。
幻覺現象和錯誤率顯著低于同級別的模型。
Ovis Ghub地址:
https://github.com/aiDC-AI/Ovis
阿里國際團隊表示,近半年的數據顯示,商家對AI的需求不斷增長,平均每兩個月調用量翻一番。Ovis無疑將助力更多商家提升運營效率。