我爱我色成人网,欧美日韩国产色,欧美亚视频在线中文字幕免费,亚洲国产影院

阿里推出最新模型Qwen3:支持兩種思考模式,具備多語言能力

阿里2025年4月29日正式發布了Qwen3系列模型。這是Qwen系列大型語言模型的最新成員,旗艦模型Qwen3-235B-A22B和小型 MoE 模型Qwen3-30B-A3B等多個模型在代碼、數學、通用能力等基準測試中表現出色。Qwen3 開源了多個模型權重,并在多個平臺開放使用。

Qwen3支持兩種思考模式,具備多語言能力,優化了 Agent 和代碼能力。其預訓練數據量達約 36 萬億個 token,預訓練分三個階段,后訓練采用四階段訓練流程。

阿里推出最新模型Qwen3:支持兩種思考模式,具備多語言能力.webp

模型亮點

  • 多種思考模式:支持思考和非思考兩種模式。思考模式適合復雜問題,模型會逐步推理;非思考模式適用于簡單問題,能快速響應。兩種模式結合增強了 “思考預算” 控制能力,用戶可按需配置。

  • 多語言能力:支持 119 種語言和方言,涵蓋印歐語系、漢藏語系等多個語系,為國際應用提供了可能。

  • 增強的 Agent 能力:優化了 Agent 和代碼能力,加強對 MCP 的支持,通過 Qwen - Agent 可降低工具調用的代碼復雜性。

阿里推出最新模型Qwen3:支持兩種思考模式,具備多語言能力.webp

Qwen3性能表現

  • 旗艦模型:Qwen3-235B-A22B是該系列的旗艦模型,擁有2350多億總參數和220多億激活參數。在代碼、數學、通用能力等基準測試中,該模型與DeepSeek-R1、Openai的o1和o3-mini、馬斯克的Grok-3以及谷歌的Gemini-2.5-Pro等頂級模型相比,表現出極具競爭力的結果。

  • 小型模型:小型MoE模型Qwen3-30B-A3B的激活參數數量是QwQ-32B的10%,但表現更優。此外,Qwen3-4B這樣的小模型也能匹敵Qwen2.5-72B-Instruct的性能。

Qwen3技術特性

  • 混合推理模型:Qwen3是國內首個“混合推理模型”,將“快思考”與“慢思考”集成進同一個模型。這種設計允許模型在解決復雜問題時進行深入推理,而在處理簡單請求時快速響應。

  • 多語言支持:Qwen3支持119種語言,并基于近36萬億個token(標記)進行訓練,其訓練數據量是Qwen2.5的兩倍。

  • 上下文長度:Qwen3支持高達256K的上下文長度,這使得它能夠處理長文檔分析、代碼生成與多輪對話等復雜任務。

阿里推出最新模型Qwen3:支持兩種思考模式,具備多語言能力.webp

Qwen3模型性能與成本

  • 旗艦版Qwen3-235B-A22B:總參數量為2350億,激活參數為220億。與DeepSeek-R1相比,其總參數量僅為后者的三分之一,部署成本預計能節省超過一半。此外,該模型支持按需啟用“深度思考”模式,僅需4張H20顯卡即可實現本地部署。

  • Qwen3-30B-A3B:總參數量為300億,激活參數為30億,總體性能可媲美Qwen2.5-32B。

Qwen3功能特性

  • 原生支持MCP協議:Qwen3系列具備工具調用能力,并結合了自身的Qwen-Agent框架,大大降低了編程復雜性,支持在手機和電腦上實現Agent操作等任務,推動AI從對話走向執行。

  • 多語言支持:支持119種語言,包括中文、英文、法文、西班牙文、俄文、阿拉伯文等。

  • 開源型號:Qwen3系列共開源了8個型號,包括:

  • 6款Dense模型:0.6B、1.7B、4B、8B、14B、32B

  • 2款MoE模型:Qwen3-30B-A3B和旗艦版Qwen3-235B-A22B

  • 最小型號Qwen3-0.6B:體積輕量,非常適合在手機等端側設備上部署,同時保持了良好的理解和生成能力,非常適合邊緣端智能應用。

訓練過程

  • 預訓練:數據集相比 Qwen2.5 顯著擴展,達到約 36 萬億個 token,是 Qwen2.5 的兩倍。數據來源包括網絡、PDF 文檔等,并利用專家模型合成數學和代碼數據。預訓練分三個階段,從基本語言技能訓練到增加知識密集型數據訓練,再到擴展上下文長度至 32K token。

  • 后訓練:采用四階段訓練流程,包括長思維鏈冷啟動、長思維鏈強化學習、思維模式融合以及通用強化學習,以開發兼具思考推理和快速響應能力的混合模型。

使用方法

  • 基礎使用:在 Hugging Face 的transformers中使用 Qwen3-30B-A3B 有標準示例代碼,可通過修改enable_thinking參數切換思考模式。

  • 部署:使用sglang>=0.4.6.post1或vllm>=0.8.4可創建與 OpenAI API 兼容的 API endpoint,移除特定參數可禁用思考模式。

  • 本地開發:可使用ollama、LMStudio、llama.cpp和ktransformers等工具進行本地開發。

  • 高級用法:提供軟切換機制,可在用戶提示或系統消息中添加/think和/no_think逐輪切換思考模式。

相關鏈接

博客:https://qwenlm.github.io/zh/blog/qwen3/

HF:https://huggingface.co/collections/Qwen/qwen3-67dd247413f0e2e4f653967f

github:https://github.com/QwenLM/Qwen3

Demo:https://huggingface.co/spaces/Qwen/Qwen3-Demo

Qwen Chat:https://chat.qwenlm.ai

收藏
最新工具
Quick Prompt
Quick Prompt

一個專注于提示詞(Prompt)的管理和快速輸入的瀏覽器擴展插件...

FoldNFly
FoldNFly

一個專注于紙飛機折疊教程的網站,提供豐富的紙飛機設計資源、制作指...

VoiceCanvas
VoiceCanvas

一款文本轉語音工具,支持 50 多種語言,具備語音克隆功能,僅需...

Loud Fame
Loud Fame

一款AI視頻生成和編輯工具,能夠將普通視頻轉換為具有動漫風格的視...

PPT世界
PPT世界

QIJ鰭跡旗下產品,集PPT模板下載、設計教程、交流社區和定制服...

職達AI簡歷
職達AI簡歷

一個專業的 AI 簡歷優化平臺,提供簡歷&求職一站式服務...

喵記多APP
喵記多APP

快手推出的邊聊天邊記錄的AI筆記,主要功能包括管理筆記,如剪藏、...

暢圖
暢圖

一款由摹客推出的AI原生可視化工具,專為個人和團隊的創意表達、知...

Ztalk ai
Ztalk ai

一個AI驅動的會議實時語音翻譯平臺,可以與 Zoom、Googl...

Supercut
Supercut

一款屏幕錄制工具,能幫你快速錄下屏幕上的內容,錄制的視頻可以自動...

主站蜘蛛池模板: 铜川市| 昂仁县| 和田县| 高密市| 建宁县| 年辖:市辖区| 阿坝县| 长沙县| 梧州市| 建阳市| 广宗县| 甘谷县| 正阳县| 大同市| 富阳市| 九龙县| 广宗县| 淳安县| 扎鲁特旗| 沙坪坝区| 金昌市| 孟村| 鄂尔多斯市| 阳西县| 磐安县| 潍坊市| 商河县| 贡山| 贵州省| 永吉县| 甘谷县| 永年县| 桐梓县| 沁水县| 昆明市| 黄大仙区| 克拉玛依市| 金湖县| 阳西县| 高陵县| 什邡市|