我爱我色成人网,欧美日韩国产色,欧美亚视频在线中文字幕免费,亚洲国产影院

阿里推出最新模型Qwen3:支持兩種思考模式,具備多語言能力

阿里2025年4月29日正式發布了Qwen3系列模型。這是Qwen系列大型語言模型的最新成員,旗艦模型Qwen3-235B-A22B和小型 MoE 模型Qwen3-30B-A3B等多個模型在代碼、數學、通用能力等基準測試中表現出色。Qwen3 開源了多個模型權重,并在多個平臺開放使用。

Qwen3支持兩種思考模式,具備多語言能力,優化了 Agent 和代碼能力。其預訓練數據量達約 36 萬億個 token,預訓練分三個階段,后訓練采用四階段訓練流程。

阿里推出最新模型Qwen3:支持兩種思考模式,具備多語言能力.webp

模型亮點

  • 多種思考模式:支持思考和非思考兩種模式。思考模式適合復雜問題,模型會逐步推理;非思考模式適用于簡單問題,能快速響應。兩種模式結合增強了 “思考預算” 控制能力,用戶可按需配置。

  • 多語言能力:支持 119 種語言和方言,涵蓋印歐語系、漢藏語系等多個語系,為國際應用提供了可能。

  • 增強的 Agent 能力:優化了 Agent 和代碼能力,加強對 MCP 的支持,通過 Qwen - Agent 可降低工具調用的代碼復雜性。

阿里推出最新模型Qwen3:支持兩種思考模式,具備多語言能力.webp

Qwen3性能表現

  • 旗艦模型:Qwen3-235B-A22B是該系列的旗艦模型,擁有2350多億總參數和220多億激活參數。在代碼、數學、通用能力等基準測試中,該模型與DeepSeek-R1、Openai的o1和o3-mini、馬斯克的Grok-3以及谷歌的Gemini-2.5-Pro等頂級模型相比,表現出極具競爭力的結果。

  • 小型模型:小型MoE模型Qwen3-30B-A3B的激活參數數量是QwQ-32B的10%,但表現更優。此外,Qwen3-4B這樣的小模型也能匹敵Qwen2.5-72B-Instruct的性能。

Qwen3技術特性

  • 混合推理模型:Qwen3是國內首個“混合推理模型”,將“快思考”與“慢思考”集成進同一個模型。這種設計允許模型在解決復雜問題時進行深入推理,而在處理簡單請求時快速響應。

  • 多語言支持:Qwen3支持119種語言,并基于近36萬億個token(標記)進行訓練,其訓練數據量是Qwen2.5的兩倍。

  • 上下文長度:Qwen3支持高達256K的上下文長度,這使得它能夠處理長文檔分析、代碼生成與多輪對話等復雜任務。

阿里推出最新模型Qwen3:支持兩種思考模式,具備多語言能力.webp

Qwen3模型性能與成本

  • 旗艦版Qwen3-235B-A22B:總參數量為2350億,激活參數為220億。與DeepSeek-R1相比,其總參數量僅為后者的三分之一,部署成本預計能節省超過一半。此外,該模型支持按需啟用“深度思考”模式,僅需4張H20顯卡即可實現本地部署。

  • Qwen3-30B-A3B:總參數量為300億,激活參數為30億,總體性能可媲美Qwen2.5-32B。

Qwen3功能特性

  • 原生支持MCP協議:Qwen3系列具備工具調用能力,并結合了自身的Qwen-Agent框架,大大降低了編程復雜性,支持在手機和電腦上實現Agent操作等任務,推動AI從對話走向執行。

  • 多語言支持:支持119種語言,包括中文、英文、法文、西班牙文、俄文、阿拉伯文等。

  • 開源型號:Qwen3系列共開源了8個型號,包括:

  • 6款Dense模型:0.6B、1.7B、4B、8B、14B、32B

  • 2款MoE模型:Qwen3-30B-A3B和旗艦版Qwen3-235B-A22B

  • 最小型號Qwen3-0.6B:體積輕量,非常適合在手機等端側設備上部署,同時保持了良好的理解和生成能力,非常適合邊緣端智能應用。

訓練過程

  • 預訓練:數據集相比 Qwen2.5 顯著擴展,達到約 36 萬億個 token,是 Qwen2.5 的兩倍。數據來源包括網絡、PDF 文檔等,并利用專家模型合成數學和代碼數據。預訓練分三個階段,從基本語言技能訓練到增加知識密集型數據訓練,再到擴展上下文長度至 32K token。

  • 后訓練:采用四階段訓練流程,包括長思維鏈冷啟動、長思維鏈強化學習、思維模式融合以及通用強化學習,以開發兼具思考推理和快速響應能力的混合模型。

使用方法

  • 基礎使用:在 Hugging Face 的transformers中使用 Qwen3-30B-A3B 有標準示例代碼,可通過修改enable_thinking參數切換思考模式。

  • 部署:使用sglang>=0.4.6.post1或vllm>=0.8.4可創建與 OpenAI API 兼容的 API endpoint,移除特定參數可禁用思考模式。

  • 本地開發:可使用ollama、LMStudio、llama.cpp和ktransformers等工具進行本地開發。

  • 高級用法:提供軟切換機制,可在用戶提示或系統消息中添加/think和/no_think逐輪切換思考模式。

相關鏈接

博客:https://qwenlm.github.io/zh/blog/qwen3/

HF:https://huggingface.co/collections/Qwen/qwen3-67dd247413f0e2e4f653967f

github:https://github.com/QwenLM/Qwen3

Demo:https://huggingface.co/spaces/Qwen/Qwen3-Demo

Qwen Chat:https://chat.qwenlm.ai

收藏
最新工具
Sweezy Cursors
Sweezy Cursors

一個提供免費鼠標光標??的網站,支持??Chrome瀏覽器??和...

CookingGames
CookingGames

一個提供免費烹飪和烘焙游戲的網站。這里有多種類型的游戲,適合不同...

Doll Divine
Doll Divine

一款以換裝和角色創建為核心的在線游戲平臺,Doll Divine...

VoiceNovel
VoiceNovel

一個通過AI把小說變成有聲內容的在線平臺,它把用戶上傳的小說轉成...

SchedPilot
SchedPilot

個人和團隊用的社交媒體內容調度管理工具,用AI技術實現多平臺發內...

MultiPost
MultiPost

一款免費開源的瀏覽器擴展,能將文本、圖片、視頻等內容一鍵分發到 ...

AI快研俠
AI快研俠

一個專注用AI幫用戶高效完成研究工作的產品,AI快研俠圍繞“研究...

GameCreator
GameCreator

Catsoft Studios開發的游戲引擎,兼顧專業和愛好者需...

GirlsGoGames
GirlsGoGames

簡稱GGG,是一個特別受女孩歡迎的在線免費游戲平臺。它提供各種有...

SweetyGame
SweetyGame

一個專門做給女孩子玩的小游戲網站,主要以可愛、時尚、名人元素 為...

主站蜘蛛池模板: 湘潭市| 阿拉尔市| 个旧市| 北宁市| 钟山县| 洮南市| 馆陶县| 新津县| 镶黄旗| 茌平县| 北碚区| 洪雅县| 四川省| 农安县| 阿合奇县| 棋牌| 九龙城区| 大石桥市| 天祝| 仙桃市| 容城县| 古交市| 洛隆县| 邵东县| 香河县| 电白县| 玛多县| 高平市| 黔东| 靖州| 逊克县| 黎平县| 莱芜市| 灌阳县| 监利县| 沙田区| 九台市| 林芝县| 修水县| 贡嘎县| 阿尔山市|