Skywork R1V:昆侖萬維開源的全球首個工業(yè)級開源多模態(tài)推理模型
Skywork R1V是什么?
Skywork R1V 是由昆侖萬維開源的一款多模態(tài)思維鏈推理模型,于2025年3月18日正式發(fā)布。
Skywork R1V 是全球首個工業(yè)級開源多模態(tài)推理模型,專注于通過多步邏輯推理解決復(fù)雜的視覺任務(wù)。它將文本推理能力高效遷移到視覺任務(wù)中,實現(xiàn)了視覺與文本模態(tài)的深度融合。Skywork R1V不僅能理解圖像和文本,還能進行多步驟邏輯推理,尤其擅長處理基于圖像的復(fù)雜問題。
Skywork R1V功能特征
視覺鏈?zhǔn)酵评恚耗軐?fù)雜視覺任務(wù)進行多步邏輯推理,逐步分析并得出結(jié)論。
數(shù)學(xué)與科學(xué)問題求解:可識別圖像中的數(shù)學(xué)或科學(xué)問題,結(jié)合推理能力給出逐步解答。
跨模態(tài)融合:將視覺與文本信息深度融合,提升語義理解能力。
高效推理優(yōu)化:通過自適應(yīng)長度思維鏈蒸餾,動態(tài)調(diào)整推理深度,節(jié)省算力并提升效率。
強大的推理與視覺理解能力:在多項基準(zhǔn)測試中表現(xiàn)出色,邏輯推理和視覺理解能力均達到較高水平。
Skywork R1V技術(shù)原理
文本推理能力的多模態(tài)遷移:通過視覺投影器(Visual Projector),無需重新訓(xùn)練語言模型和視覺編碼器,即可將文本推理能力遷移到視覺任務(wù)中。
多模態(tài)混合式訓(xùn)練(Iterative SFT + GRPO):結(jié)合迭代監(jiān)督微調(diào)(Iterative SFT)和群組相對策略優(yōu)化(GRPO)強化學(xué)習(xí),分階段對齊視覺與文本表征,提升模型在跨模態(tài)任務(wù)中的表現(xiàn)。
自適應(yīng)長度思維鏈蒸餾:引入基于視覺-文本復(fù)雜度的自適應(yīng)推理鏈長度控制機制,動態(tài)優(yōu)化模型推理過程,避免“過度思考”,提升推理效率和質(zhì)量。
三階段訓(xùn)練方法:
初始對齊:使用輕量級視覺適配器(MLP)連接視覺編碼器和語言模型,在常規(guī)多模態(tài)數(shù)據(jù)上訓(xùn)練,初步對齊視覺與語言表征。
推理能力遷移:將訓(xùn)練好的適配器與強推理語言模型連接,形成視覺推理模型,賦予模型初始視覺推理能力。
精準(zhǔn)對齊:基于混合優(yōu)化框架(Iterative SFT + GRPO)進一步精準(zhǔn)對齊視覺和語言模態(tài),提升多模態(tài)推理能力。
Skywork R1V性能表現(xiàn)
邏輯推理能力:
在 MATH-500 基準(zhǔn)測試中,Skywork R1V 取得了94.0的高分。
在 aiME 2024 基準(zhǔn)測試中,通過率達到72.0%。
在 GPQA(General Physics Question Answering)基準(zhǔn)測試中,通過率達到61.6%。
視覺理解能力:
在 MathVista(視覺數(shù)學(xué)推理)基準(zhǔn)測試中,得分67.5。
在 MMMU(Multimodal Medical Understanding)基準(zhǔn)測試中,得分69.0。
Skywork R1V應(yīng)用場景
教育輔導(dǎo):幫助學(xué)生解決數(shù)學(xué)、物理等學(xué)科問題,提供解題步驟和分析。
醫(yī)療影像分析:輔助醫(yī)生分析醫(yī)學(xué)影像,推理病變特征,提供診斷建議。
科學(xué)研究輔助:分析實驗圖像和文獻,推理科學(xué)現(xiàn)象,幫助科研人員驗證結(jié)果。
內(nèi)容創(chuàng)作與審核:分析藝術(shù)作品、檢測違規(guī)內(nèi)容,輔助藝術(shù)鑒賞和內(nèi)容審核。
工業(yè)質(zhì)檢與市場分析:檢測產(chǎn)品缺陷,分析廣告和市場數(shù)據(jù),輔助質(zhì)量控制和商業(yè)決策。
相關(guān)鏈接
GitHub 倉庫:https://github.com/SkyworkAI/Skywork-R1V
Hugging Face 模型庫:https://huggingface.co/Skywork/Skywork-R1V
技術(shù)論文:https://github.com/SkyworkAI/Skywork-R1V/blob/main/Skywork_R1V.pdf