我爱我色成人网,欧美日韩国产色,欧美亚视频在线中文字幕免费,亚洲国产影院

阿里推出最新模型Qwen3:支持兩種思考模式,具備多語言能力

阿里2025年4月29日正式發布了Qwen3系列模型。這是Qwen系列大型語言模型的最新成員,旗艦模型Qwen3-235B-A22B和小型 MoE 模型Qwen3-30B-A3B等多個模型在代碼、數學、通用能力等基準測試中表現出色。Qwen3 開源了多個模型權重,并在多個平臺開放使用。

Qwen3支持兩種思考模式,具備多語言能力,優化了 Agent 和代碼能力。其預訓練數據量達約 36 萬億個 token,預訓練分三個階段,后訓練采用四階段訓練流程。

阿里推出最新模型Qwen3:支持兩種思考模式,具備多語言能力.webp

模型亮點

  • 多種思考模式:支持思考和非思考兩種模式。思考模式適合復雜問題,模型會逐步推理;非思考模式適用于簡單問題,能快速響應。兩種模式結合增強了 “思考預算” 控制能力,用戶可按需配置。

  • 多語言能力:支持 119 種語言和方言,涵蓋印歐語系、漢藏語系等多個語系,為國際應用提供了可能。

  • 增強的 Agent 能力:優化了 Agent 和代碼能力,加強對 MCP 的支持,通過 Qwen - Agent 可降低工具調用的代碼復雜性。

阿里推出最新模型Qwen3:支持兩種思考模式,具備多語言能力.webp

Qwen3性能表現

  • 旗艦模型:Qwen3-235B-A22B是該系列的旗艦模型,擁有2350多億總參數和220多億激活參數。在代碼、數學、通用能力等基準測試中,該模型與DeepSeek-R1、Openai的o1和o3-mini、馬斯克的Grok-3以及谷歌的Gemini-2.5-Pro等頂級模型相比,表現出極具競爭力的結果。

  • 小型模型:小型MoE模型Qwen3-30B-A3B的激活參數數量是QwQ-32B的10%,但表現更優。此外,Qwen3-4B這樣的小模型也能匹敵Qwen2.5-72B-Instruct的性能。

Qwen3技術特性

  • 混合推理模型:Qwen3是國內首個“混合推理模型”,將“快思考”與“慢思考”集成進同一個模型。這種設計允許模型在解決復雜問題時進行深入推理,而在處理簡單請求時快速響應。

  • 多語言支持:Qwen3支持119種語言,并基于近36萬億個token(標記)進行訓練,其訓練數據量是Qwen2.5的兩倍。

  • 上下文長度:Qwen3支持高達256K的上下文長度,這使得它能夠處理長文檔分析、代碼生成與多輪對話等復雜任務。

阿里推出最新模型Qwen3:支持兩種思考模式,具備多語言能力.webp

Qwen3模型性能與成本

  • 旗艦版Qwen3-235B-A22B:總參數量為2350億,激活參數為220億。與DeepSeek-R1相比,其總參數量僅為后者的三分之一,部署成本預計能節省超過一半。此外,該模型支持按需啟用“深度思考”模式,僅需4張H20顯卡即可實現本地部署。

  • Qwen3-30B-A3B:總參數量為300億,激活參數為30億,總體性能可媲美Qwen2.5-32B。

Qwen3功能特性

  • 原生支持MCP協議:Qwen3系列具備工具調用能力,并結合了自身的Qwen-Agent框架,大大降低了編程復雜性,支持在手機和電腦上實現Agent操作等任務,推動AI從對話走向執行。

  • 多語言支持:支持119種語言,包括中文、英文、法文、西班牙文、俄文、阿拉伯文等。

  • 開源型號:Qwen3系列共開源了8個型號,包括:

  • 6款Dense模型:0.6B、1.7B、4B、8B、14B、32B

  • 2款MoE模型:Qwen3-30B-A3B和旗艦版Qwen3-235B-A22B

  • 最小型號Qwen3-0.6B:體積輕量,非常適合在手機等端側設備上部署,同時保持了良好的理解和生成能力,非常適合邊緣端智能應用。

訓練過程

  • 預訓練:數據集相比 Qwen2.5 顯著擴展,達到約 36 萬億個 token,是 Qwen2.5 的兩倍。數據來源包括網絡、PDF 文檔等,并利用專家模型合成數學和代碼數據。預訓練分三個階段,從基本語言技能訓練到增加知識密集型數據訓練,再到擴展上下文長度至 32K token。

  • 后訓練:采用四階段訓練流程,包括長思維鏈冷啟動、長思維鏈強化學習、思維模式融合以及通用強化學習,以開發兼具思考推理和快速響應能力的混合模型。

使用方法

  • 基礎使用:在 Hugging Face 的transformers中使用 Qwen3-30B-A3B 有標準示例代碼,可通過修改enable_thinking參數切換思考模式。

  • 部署:使用sglang>=0.4.6.post1或vllm>=0.8.4可創建與 OpenAI API 兼容的 API endpoint,移除特定參數可禁用思考模式。

  • 本地開發:可使用ollama、LMStudio、llama.cpp和ktransformers等工具進行本地開發。

  • 高級用法:提供軟切換機制,可在用戶提示或系統消息中添加/think和/no_think逐輪切換思考模式。

相關鏈接

博客:https://qwenlm.github.io/zh/blog/qwen3/

HF:https://huggingface.co/collections/Qwen/qwen3-67dd247413f0e2e4f653967f

github:https://github.com/QwenLM/Qwen3

Demo:https://huggingface.co/spaces/Qwen/Qwen3-Demo

Qwen Chat:https://chat.qwenlm.ai

收藏
最新工具
PrettyScale
PrettyScale

一個在線面部分析及顏值打分網站,用戶通過上傳照片或直接用攝像頭參...

圓周旅跡
圓周旅跡

一款旅游出行AI智能規劃APP,它可以直接從小紅書這些平臺導入別...

Wonderplan AI
Wonderplan AI

一個免費的AI旅游規劃工具,能根據你的喜好、需求生成專屬行程,支...

智寫流程
智寫流程

一個能自動記錄網頁操作并生成操作指南的工具。它能捕捉鼠標點擊、鍵...

ReactBits
ReactBits

一個免費開源的動畫化、可交互React組件庫,里面有好多動畫化、...

電視眼
電視眼

也叫TV眼,是一個在線網絡電視直播網站,提供全國5000+個電視...

Excel Dashboard Ai
Excel Dashboard Ai

一款能自動把 Excel 或 CSV 文件變成帶交互功能的儀表盤...

ByRutor
ByRutor

俄羅斯的一個免費游戲資源下載網站,提供超23,000多款游戲,涵...

RandomStreetView
RandomStreetView

一個可以隨機展示全球谷歌街景照片的網站,每次點按鈕,系統會隨機選...

ZType
ZType

官網:zty.pe,一個把打字練習和射擊游戲結合的在線工具。玩家...

主站蜘蛛池模板: 巢湖市| 民丰县| 黔江区| 龙口市| 泽普县| 蓬莱市| 黔东| 长宁县| 昭苏县| 乐至县| 南陵县| 兴义市| 普陀区| 韶山市| 云龙县| 清苑县| 富裕县| 新丰县| 酉阳| 朝阳市| 类乌齐县| 马公市| 治多县| 九龙县| 宁波市| 清苑县| 太和县| 秀山| 洮南市| 玛多县| 陈巴尔虎旗| 融水| 本溪| 大宁县| 临清市| 阳朔县| 枝江市| 阜阳市| 寻甸| 绵竹市| 和政县|