我爱我色成人网,欧美日韩国产色,欧美亚视频在线中文字幕免费,亚洲国产影院

<blockquote id="uyp3q"><b id="uyp3q"></b></blockquote>

<var id="uyp3q"><acronym id="uyp3q"></acronym></var>

<blockquote id="uyp3q"></blockquote>

<noscript id="uyp3q"><dl id="uyp3q"></dl></noscript>

<blockquote id="uyp3q"></blockquote>

Ai應用
Ai資訊
AI生圖
AI生視頻
開源AI應用平臺

首頁 > Ai資訊 > Ai產品

Ovis:阿里國際發布的最新開源多模態模型

Ovis于2024-09-20發布在Ai產品

阿里國際于2024年9月19日發布了最新的多模態大模型Ovis，Ovis模型在多個領域展現出色的能力，特別是在數學推理問答、物體識別、文本提取和復雜任務決策等方面。

阿里國際發布的最新開源多模態模型

根據多模態評測平臺OpenCompass的數據，Ovis1.6-Gemma2-9B版本在OpenCompass這一權威綜合評測基準上，超越了多個知名開源模型，包括Qwen2VL-7B、InternVL2-26B和MiniCPM-V-2.6，在300億參數以下的開源模型中位居第一。值得注意的是，Ovis在某些任務上的表現甚至超過了閉源的大型模型GPT-4o-mini。

Ovis的核心能力:

多模態任務處理：Ovis能夠出色地完成視覺感知推理、數學和科學理解、生活場景分析等多模態任務。它不僅能夠輔助理解復雜的數學概念，還能幫助分析財務報表，甚至根據圖片指導烹飪過程，如制作炸魚薯條。
技術細節：Ovis的設計亮點在于其結構上對齊視覺和文本嵌入的方式，通過引入可學習的視覺嵌入表，將連續視覺特征轉換為概率化的token，再生成結構化的視覺嵌入，這克服了傳統多模態模型中視覺與文本信息融合的限制。
性能與優勢：Ovis在數學推理和視覺理解等任務中的得分表現出色，甚至媲美一些參數量級更高的模型。它在幻覺現象和錯誤率方面的控制也優于同級別模型，確保了高文本質量和準確度。
開源與商用友好：遵循Apache 2.0開源協議，Ovis的開源使得其在商業應用上非常友好，鼓勵更廣泛的應用和二次開發。
架構創新：Ovis通過創新的架構設計，包括動態子圖方案，支持處理極端長寬比和高分辨率圖像，以及全面數據優化策略，覆蓋Caption、VQA、OCR、Table、Chart等多種多模態數據方向，從而提升了多模態任務的綜合表現。

Ovis應用案例：

圖像識別與處理：Ovis能準確識別手寫內容并翻譯，處理復雜的數學公式，比如通過圖片識別給出詳細的菜譜制作步驟。
自動駕駛：整合攝像頭、雷達和激光雷達的數據。
醫療診斷：用于圖像分析和診斷支持。
視頻內容理解：分析和生成視頻內容。
圖像描述生成：自動生成圖像描述。
視覺問答：支持多種語言的文本提取和問答。

Ovis開源信息:

Ovis系列模型License采用Apache 2.0。
Ovis 1.0、1.5的數據、模型、訓練和推理代碼已開源。
Ovis1.6系列中的Ovis1.6-Gemma2-9B也已開源權重。
開發者可以在GitHub上獲取模型和代碼。
開源代碼可用于商用和改進。

Ovis技術優勢：

創新架構設計：克服MLLM中MLP連接器架構的局限性。
高分圖像處理：兼容高分辨率圖像。
全面數據優化：顯著提升多模態問答、指令跟隨等任務表現。
卓越模型性能：在OpenCompass上綜合排名第一。
幻覺現象和錯誤率顯著低于同級別的模型。

Ovis Ghub地址：

https://github.com/aiDC-AI/Ovis

阿里國際團隊表示，近半年的數據顯示，商家對AI的需求不斷增長，平均每兩個月調用量翻一番。Ovis無疑將助力更多商家提升運營效率。

收藏

LVCD：騰訊動畫視頻線稿上色工具

上一篇

LVCD：騰訊動畫視頻線稿上色工具

YesPlayMusic：開源免費且高顏值的第三方網易云播放器

下一篇

YesPlayMusic：開源免費且高顏值的第三方網易云播放器

相關文章

Qwen-Image：阿里云通義千問團隊開源的圖形海

Qwen-Image：阿里云通義千問團隊開源的圖形海

2025-08-06

ThinkSound：阿里巴巴通義實驗室推出的多模態

ThinkSound：阿里巴巴通義實驗室推出的多模態

2025-07-25

阿里Ovis-U1：具備多模態理解、圖像生成、圖像編

阿里Ovis-U1：具備多模態理解、圖像生成、圖像編

2025-06-30

Qwen VLo：阿里巴巴推出的多模態統一理解與生成

Qwen VLo：阿里巴巴推出的多模態統一理解與生成

2025-06-28

Mnn3dAvatar：阿里開源的3D數字人框架，直

Mnn3dAvatar：阿里開源的3D數字人框架，直

2025-06-12

VRAG-RL：阿里通義團隊推出的一款基于視覺感知R

VRAG-RL：阿里通義團隊推出的一款基于視覺感知R

2025-06-03

最新文章

最新工具

轉換云

一個在線音樂格式轉換網站，包括.ncm、.mgg、.mflac、...

蘿卜工坊

一個能把電子文本變成逼真手寫風格的在線工具。它有AI專屬字體制作...

LyricsPoster

一個幫你把喜歡的歌手圖片和歌詞做成海報的在線工具。你可以在簡單的...

藍豆打字

一個在線打字練習平臺，提供鍵盤指法、拼音、雙拼、五筆、源代碼、英...

一頁紙EasyPaper

一個能生成自定義紙張的免費在線工具。通過網頁界面，用戶可自行設置...

88查

阿里旗下1688推出的企業信息查詢和商業情報工具。它利用大模型實...

Sleep Calculator

Sleep Calculator

一種利用睡眠周期設計的工具。輸入期望起床時間，它能自動算出多個適...

媒發

一款讓內容分發更簡單高效的工具，它的核心優勢是1分鐘就能把內容發...

FantasyGen

能在線生成奇幻地圖的AI工具，用戶只要輸入對地圖的描述、選好風格...

DriftOS

一個免費的白噪音網站，不用注冊登錄，打開網頁就能直接播放聲音，不...

人生若只如初見

用戶登錄

主站蜘蛛池模板：宜兰县| 大方县| 炉霍县| 仁布县| 通辽市| 临桂县| 长宁区| 贵阳市| 乌鲁木齐县| 乌什县| 元氏县| 班戈县| 岑巩县| 喀什市| 高密市| 什邡市| 双城市| 凉山| 利津县| 井研县| 萨嘎县| 寿宁县| 恩平市| 秭归县| 盐边县| 巴彦县| 双流县| 大田县| 彰化县| 霍林郭勒市| 伊金霍洛旗| 祁门县| 兴义市| 澎湖县| 香港| 互助| 土默特左旗| 平利县| 来凤县| 精河县| 嘉黎县|

<noscript id="cvl38"><dl id="cvl38"></dl></noscript>