我爱我色成人网,欧美日韩国产色,欧美亚视频在线中文字幕免费,亚洲国产影院

阿里推出最新模型Qwen3:支持兩種思考模式,具備多語言能力

阿里2025年4月29日正式發布了Qwen3系列模型。這是Qwen系列大型語言模型的最新成員,旗艦模型Qwen3-235B-A22B和小型 MoE 模型Qwen3-30B-A3B等多個模型在代碼、數學、通用能力等基準測試中表現出色。Qwen3 開源了多個模型權重,并在多個平臺開放使用。

Qwen3支持兩種思考模式,具備多語言能力,優化了 Agent 和代碼能力。其預訓練數據量達約 36 萬億個 token,預訓練分三個階段,后訓練采用四階段訓練流程。

阿里推出最新模型Qwen3:支持兩種思考模式,具備多語言能力.webp

模型亮點

  • 多種思考模式:支持思考和非思考兩種模式。思考模式適合復雜問題,模型會逐步推理;非思考模式適用于簡單問題,能快速響應。兩種模式結合增強了 “思考預算” 控制能力,用戶可按需配置。

  • 多語言能力:支持 119 種語言和方言,涵蓋印歐語系、漢藏語系等多個語系,為國際應用提供了可能。

  • 增強的 Agent 能力:優化了 Agent 和代碼能力,加強對 MCP 的支持,通過 Qwen - Agent 可降低工具調用的代碼復雜性。

阿里推出最新模型Qwen3:支持兩種思考模式,具備多語言能力.webp

Qwen3性能表現

  • 旗艦模型:Qwen3-235B-A22B是該系列的旗艦模型,擁有2350多億總參數和220多億激活參數。在代碼、數學、通用能力等基準測試中,該模型與DeepSeek-R1、Openai的o1和o3-mini、馬斯克的Grok-3以及谷歌的Gemini-2.5-Pro等頂級模型相比,表現出極具競爭力的結果。

  • 小型模型:小型MoE模型Qwen3-30B-A3B的激活參數數量是QwQ-32B的10%,但表現更優。此外,Qwen3-4B這樣的小模型也能匹敵Qwen2.5-72B-Instruct的性能。

Qwen3技術特性

  • 混合推理模型:Qwen3是國內首個“混合推理模型”,將“快思考”與“慢思考”集成進同一個模型。這種設計允許模型在解決復雜問題時進行深入推理,而在處理簡單請求時快速響應。

  • 多語言支持:Qwen3支持119種語言,并基于近36萬億個token(標記)進行訓練,其訓練數據量是Qwen2.5的兩倍。

  • 上下文長度:Qwen3支持高達256K的上下文長度,這使得它能夠處理長文檔分析、代碼生成與多輪對話等復雜任務。

阿里推出最新模型Qwen3:支持兩種思考模式,具備多語言能力.webp

Qwen3模型性能與成本

  • 旗艦版Qwen3-235B-A22B:總參數量為2350億,激活參數為220億。與DeepSeek-R1相比,其總參數量僅為后者的三分之一,部署成本預計能節省超過一半。此外,該模型支持按需啟用“深度思考”模式,僅需4張H20顯卡即可實現本地部署。

  • Qwen3-30B-A3B:總參數量為300億,激活參數為30億,總體性能可媲美Qwen2.5-32B。

Qwen3功能特性

  • 原生支持MCP協議:Qwen3系列具備工具調用能力,并結合了自身的Qwen-Agent框架,大大降低了編程復雜性,支持在手機和電腦上實現Agent操作等任務,推動AI從對話走向執行。

  • 多語言支持:支持119種語言,包括中文、英文、法文、西班牙文、俄文、阿拉伯文等。

  • 開源型號:Qwen3系列共開源了8個型號,包括:

  • 6款Dense模型:0.6B、1.7B、4B、8B、14B、32B

  • 2款MoE模型:Qwen3-30B-A3B和旗艦版Qwen3-235B-A22B

  • 最小型號Qwen3-0.6B:體積輕量,非常適合在手機等端側設備上部署,同時保持了良好的理解和生成能力,非常適合邊緣端智能應用。

訓練過程

  • 預訓練:數據集相比 Qwen2.5 顯著擴展,達到約 36 萬億個 token,是 Qwen2.5 的兩倍。數據來源包括網絡、PDF 文檔等,并利用專家模型合成數學和代碼數據。預訓練分三個階段,從基本語言技能訓練到增加知識密集型數據訓練,再到擴展上下文長度至 32K token。

  • 后訓練:采用四階段訓練流程,包括長思維鏈冷啟動、長思維鏈強化學習、思維模式融合以及通用強化學習,以開發兼具思考推理和快速響應能力的混合模型。

使用方法

  • 基礎使用:在 Hugging Face 的transformers中使用 Qwen3-30B-A3B 有標準示例代碼,可通過修改enable_thinking參數切換思考模式。

  • 部署:使用sglang>=0.4.6.post1或vllm>=0.8.4可創建與 OpenAI API 兼容的 API endpoint,移除特定參數可禁用思考模式。

  • 本地開發:可使用ollama、LMStudio、llama.cpp和ktransformers等工具進行本地開發。

  • 高級用法:提供軟切換機制,可在用戶提示或系統消息中添加/think和/no_think逐輪切換思考模式。

相關鏈接

博客:https://qwenlm.github.io/zh/blog/qwen3/

HF:https://huggingface.co/collections/Qwen/qwen3-67dd247413f0e2e4f653967f

github:https://github.com/QwenLM/Qwen3

Demo:https://huggingface.co/spaces/Qwen/Qwen3-Demo

Qwen Chat:https://chat.qwenlm.ai

收藏
最新工具
unDraw
unDraw

美國設計師Katerina Limpitsouni創作的開源插畫...

Storyset
Storyset

一個由知名素材平臺Freepik公司旗下的免費在線自定義矢量插畫...

Jigsaw Planet
Jigsaw Planet

一個數百萬免費在線拼圖平臺,用戶能直接通過瀏覽器創建、游玩和分享...

GeoFS
GeoFS

一款免費的網頁版多人飛行模擬器網站,只要瀏覽器就可以運行,不需要...

Avido AI
Avido AI

通過 AI 技術幫用戶生成適合 YouTube 和 TikTok...

表答AI
表答AI

一款能抓取網頁內容并能情感分析的數據分析產品,并把采集分析過程自...

Recaster AI
Recaster AI

通過導入產品圖像或數據,生成定制的SEO內容,支持從Shopif...

ScanPDF
ScanPDF

一個能夠讓PDF看起來就像是掃描件一樣的在線免費工具。只需點擊鼠...

SkylineWebCams
SkylineWebCams

在美洲、歐洲、亞洲、非洲及大洋洲59個國家,提供全球五大洲實時高...

Ezgif
Ezgif

一個簡單、免費的在線 GIF 制作工具和基礎動畫圖像編輯工具集,...

主站蜘蛛池模板: 扎赉特旗| 颍上县| 同德县| 屏南县| 荥经县| 阿图什市| 合肥市| 郴州市| 綦江县| 龙川县| 宝丰县| 明溪县| 临漳县| 揭西县| 肃宁县| 郴州市| 驻马店市| 碌曲县| 漳州市| 万年县| 永定县| 湛江市| 驻马店市| 马山县| 进贤县| 北宁市| 华亭县| 南皮县| 湄潭县| 南华县| 婺源县| 呼伦贝尔市| 金乡县| 金堂县| 阿尔山市| 凤凰县| 准格尔旗| 湘乡市| 凯里市| 苗栗市| 安徽省|