阿里推出最新模型Qwen3:支持兩種思考模式,具備多語言能力
阿里2025年4月29日正式發布了Qwen3系列模型。這是Qwen系列大型語言模型的最新成員,旗艦模型Qwen3-235B-A22B和小型 MoE 模型Qwen3-30B-A3B等多個模型在代碼、數學、通用能力等基準測試中表現出色。Qwen3 開源了多個模型權重,并在多個平臺開放使用。
Qwen3支持兩種思考模式,具備多語言能力,優化了 Agent 和代碼能力。其預訓練數據量達約 36 萬億個 token,預訓練分三個階段,后訓練采用四階段訓練流程。
模型亮點
多種思考模式:支持思考和非思考兩種模式。思考模式適合復雜問題,模型會逐步推理;非思考模式適用于簡單問題,能快速響應。兩種模式結合增強了 “思考預算” 控制能力,用戶可按需配置。
多語言能力:支持 119 種語言和方言,涵蓋印歐語系、漢藏語系等多個語系,為國際應用提供了可能。
增強的 Agent 能力:優化了 Agent 和代碼能力,加強對 MCP 的支持,通過 Qwen - Agent 可降低工具調用的代碼復雜性。
Qwen3性能表現
旗艦模型:Qwen3-235B-A22B是該系列的旗艦模型,擁有2350多億總參數和220多億激活參數。在代碼、數學、通用能力等基準測試中,該模型與DeepSeek-R1、Openai的o1和o3-mini、馬斯克的Grok-3以及谷歌的Gemini-2.5-Pro等頂級模型相比,表現出極具競爭力的結果。
小型模型:小型MoE模型Qwen3-30B-A3B的激活參數數量是QwQ-32B的10%,但表現更優。此外,Qwen3-4B這樣的小模型也能匹敵Qwen2.5-72B-Instruct的性能。
Qwen3技術特性
混合推理模型:Qwen3是國內首個“混合推理模型”,將“快思考”與“慢思考”集成進同一個模型。這種設計允許模型在解決復雜問題時進行深入推理,而在處理簡單請求時快速響應。
多語言支持:Qwen3支持119種語言,并基于近36萬億個token(標記)進行訓練,其訓練數據量是Qwen2.5的兩倍。
上下文長度:Qwen3支持高達256K的上下文長度,這使得它能夠處理長文檔分析、代碼生成與多輪對話等復雜任務。
Qwen3模型性能與成本
旗艦版Qwen3-235B-A22B:總參數量為2350億,激活參數為220億。與DeepSeek-R1相比,其總參數量僅為后者的三分之一,部署成本預計能節省超過一半。此外,該模型支持按需啟用“深度思考”模式,僅需4張H20顯卡即可實現本地部署。
Qwen3-30B-A3B:總參數量為300億,激活參數為30億,總體性能可媲美Qwen2.5-32B。
Qwen3功能特性
原生支持MCP協議:Qwen3系列具備工具調用能力,并結合了自身的Qwen-Agent框架,大大降低了編程復雜性,支持在手機和電腦上實現Agent操作等任務,推動AI從對話走向執行。
多語言支持:支持119種語言,包括中文、英文、法文、西班牙文、俄文、阿拉伯文等。
開源型號:Qwen3系列共開源了8個型號,包括:
6款Dense模型:0.6B、1.7B、4B、8B、14B、32B
2款MoE模型:Qwen3-30B-A3B和旗艦版Qwen3-235B-A22B
最小型號Qwen3-0.6B:體積輕量,非常適合在手機等端側設備上部署,同時保持了良好的理解和生成能力,非常適合邊緣端智能應用。
訓練過程
預訓練:數據集相比 Qwen2.5 顯著擴展,達到約 36 萬億個 token,是 Qwen2.5 的兩倍。數據來源包括網絡、PDF 文檔等,并利用專家模型合成數學和代碼數據。預訓練分三個階段,從基本語言技能訓練到增加知識密集型數據訓練,再到擴展上下文長度至 32K token。
后訓練:采用四階段訓練流程,包括長思維鏈冷啟動、長思維鏈強化學習、思維模式融合以及通用強化學習,以開發兼具思考推理和快速響應能力的混合模型。
使用方法
基礎使用:在 Hugging Face 的transformers中使用 Qwen3-30B-A3B 有標準示例代碼,可通過修改enable_thinking參數切換思考模式。
部署:使用sglang>=0.4.6.post1或vllm>=0.8.4可創建與 OpenAI API 兼容的 API endpoint,移除特定參數可禁用思考模式。
本地開發:可使用ollama、LMStudio、llama.cpp和ktransformers等工具進行本地開發。
高級用法:提供軟切換機制,可在用戶提示或系統消息中添加/think和/no_think逐輪切換思考模式。
相關鏈接
博客:https://qwenlm.github.io/zh/blog/qwen3/
HF:https://huggingface.co/collections/Qwen/qwen3-67dd247413f0e2e4f653967f
github:https://github.com/QwenLM/Qwen3
Demo:https://huggingface.co/spaces/Qwen/Qwen3-Demo
Qwen Chat:https://chat.qwenlm.ai