Hunyuan-Large-Vision:騰訊混元視覺模型家族中的多模態理解模型
騰訊推出的 Hunyuan-Large-Vision 是混元視覺模型家族中的多模態理解模型。它采用 MoE 架構,由數十億參數的原生分辨率混元 ViT 視覺編碼器、MLP 連接器模塊,以及 389B 參數和 52B 激活參數的 MoE 語言模型組成。支持任意分辨率的圖像、視頻、3D 空間輸入,尤其加強了多語言場景的理解能力,能用于拍照解題、視頻通話、視頻理解和文案創作等場景。

?? 模型架構
視覺編碼器:數十億參數的原生分辨率混元 ViT 視覺編碼器,專為多模態任務優化,支持原生分辨率輸入,能從各種尺寸的圖片和視頻中精準捕捉視覺信息。
MLP 連接器模塊:采用自適應下采樣機制設計,可高效壓縮視覺特征,連接視覺編碼器和語言模型。
MoE 語言模型:包含 389B 參數和 52B 激活參數,有很強的多語言理解和推理能力。
?? 性能參數
在國際大模型競技場 “LMArena Vision 排行榜” 上得 1256 分,排第五,是國內模型里的第一名,性能突出。在 OpenCompass 多模態學術評測集的多個常用學術評測中,平均分 79.5,在視覺推理、視頻理解、三維空間理解等復雜任務中表現很好。
?? 功能特點
多模態輸入支持:能處理任意分辨率的圖像、視頻、3D 空間等多種視覺信息。
強大的多語言能力:重點提升了對多語言場景的理解,能準確理解不同語言描述的內容,并做好分析和處理。
技術優勢
先進的架構設計:創新的 MoE 架構平衡了計算效率和性能,通過共享專家和專門專家的混合路由策略,提高了訓練效率和模型性能。
高質量數據支持:預訓練時用了大量高質量多模態數據,包括經特定流程篩選和標注的圖像、視頻數據,為模型學習提供了豐富素材。
?? 應用場景
拍照解題:用戶上傳圖片后,模型可根據內容解答,比如識別植物、解數學題等。
視頻通話:能實時分析視頻內容,提供相關信息或互動,比如識別通話雙方身份、分析場景等。
視頻理解與文案創作:可以總結、分析視頻,生成相關文案,還能根據視頻內容進行創意創作,比如寫視頻腳本等。
?? 體驗入口
https://hunyuan.tencent.com/modelSquare/home/list?modelKey=VisionUnderstand
提交您的產品
Ai應用
Ai資訊
AI生圖
AI生視頻
FastbuildAI









