我爱我色成人网,欧美日韩国产色,欧美亚视频在线中文字幕免费,亚洲国产影院

阿里推出QwenLong-L1-32B:一款用于長上下文推理的LLM

2025年5月26日,阿里巴巴團隊發(fā)布QwenLong-L1-32B,首個基于強化學習訓練的長上下文大推理模型,和DocQA-RL-1.6K數(shù)據(jù)集(含1600個數(shù)學、邏輯、多跳推理類文檔問答問題)。其框架通過預熱監(jiān)督微調(diào)、課程引導強化學習、難度感知回顧采樣機制解決長上下文推理強化學習中訓練效率低、優(yōu)化過程不穩(wěn)定的挑戰(zhàn),在7個長上下文DocQA基準測試中性能優(yōu)于Openai-o3-mini和Qwen3-235B-A22B,與Claude-3.7-Sonnet-Thinking持平。

fig1.webp

模型框架

核心理念:通過強化學習(RL)將短上下文大規(guī)模推理模型(LRMs)適應到長上下文場景中。

主要組成部分:

  • 預熱監(jiān)督微調(diào)(SFT)階段:建立穩(wěn)健的初始策略。

  • 基于課程的分階段強化學習技術(shù):穩(wěn)定策略演化。

  • 難度感知回顧采樣策略:激勵策略探索。

訓練數(shù)據(jù)

使用了名為DocQA-RL-1.6K的專門強化學習訓練數(shù)據(jù)集,包含1600個涵蓋數(shù)學、邏輯和多跳推理領域的文檔問答問題。

性能表現(xiàn)

  • 在七個長上下文文檔問答基準測試中,QwenLong-L1-32B的表現(xiàn)超過了OpenAI-o3-mini和Qwen3-235B-A22B等旗艦級LRMs,達到了與Claude-3.7-Sonnet-Thinking相當?shù)乃剑诋斍白钕冗M的LRMs中表現(xiàn)出領先性能。

實驗設計

  • 構(gòu)建了一個專門的RL訓練數(shù)據(jù)集DocQA-RL-1.6K,包含1600個文檔問答問題,涵蓋數(shù)學、邏輯和多跳推理領域。

  • 數(shù)學推理部分使用了DocMath數(shù)據(jù)集的600個問題,其中75%用于訓練,25%用于評估。

  • 邏輯推理部分通過DeepSeek-R1合成了600個多選題,涵蓋法律、金融、保險和生產(chǎn)領域的實際文檔。

  • 多跳推理部分從MultiHopRAG和Musique中各采樣200個例子,強調(diào)跨文檔推理。

  • 在七個長上下文DocQA基準測試上進行了評估,包括2WikiMultihopQA、HotpotQA、Musique、NarrativeQA、Qasper、Frames和DocMath。

結(jié)果與分析

  • QwenLong-L1-32B在七個長上下文DocQA基準測試中表現(xiàn)優(yōu)異,超過了OpenAI-o3-mini和Qwen3-235B-A22B等旗艦LRM模型,性能與Claude-3.7-Sonnet-Thinking相當。

  • 在數(shù)學推理基準DocMath上,QwenLong-L1-32B的精確匹配和LLM判斷準確率達到了85.3%。

  • 在多跳推理基準HotpotQA上,模型的表現(xiàn)達到了87.6%,顯著優(yōu)于現(xiàn)有模型。

項目鏈接

Github:https://github.com/Tongyi-Zhiwen/QwenLong-L1

Huggingface:https://huggingface.co/Tongyi-Zhiwen/QwenLong-L1-32B

Modelscope:https://www.modelscope.cn/models/iic/QwenLong-L1-32B

收藏
最新工具
Thea AI
Thea AI

一個專門為學生設計的AI學習平臺。它能自動把課堂筆記、PDF文件...

Pose Search
Pose Search

一個開源的人體姿勢搜索工具,允許用戶根據(jù)性別、關節(jié)或身體部位來篩...

Linnk AI
Linnk AI

面向研究人員和專業(yè)人士的工具,能在網(wǎng)頁、PDF 及多種文檔里快速...

Mentimeter
Mentimeter

一個讓傳統(tǒng)演示變得更有趣、更互動的工具。它特別適合用在教育、企業(yè)...

落筆AI寫作
落筆AI寫作

一個專為故事創(chuàng)作者設計的Ai小說寫作輔助工具,最大特點是把“找靈...

靈光APP
靈光APP

螞蟻集團推出的全模態(tài)AI助手,它能理解和生成語言、圖像、語音與數(shù)...

Moakt Email
Moakt Email

一個能提供臨時郵箱服務的平臺,不用注冊就能快速弄出一個一次性的郵...

JOJO看報
JOJO看報

一個能在線看老報紙和雜志的網(wǎng)站,有《人民日報》《參考消息》《紅旗...

超級表格
超級表格

一款多人共享的在線表格工具,結(jié)合表格與表單功能,支持多人同時查看...

蘿卜簡歷
蘿卜簡歷

一個免費在線簡歷制作工具,用AI幫應屆生和求職者寫更貼合崗位的簡...

主站蜘蛛池模板: 隆林| 察哈| 长宁县| 灌南县| 改则县| 休宁县| 河间市| 柳林县| 信宜市| 商城县| 汉寿县| 弋阳县| 石首市| 五河县| 托克托县| 兴隆县| 九龙坡区| 剑河县| 陆川县| 察雅县| 固阳县| 巴里| 天柱县| 淮阳县| 钟祥市| 阳朔县| 柏乡县| 新巴尔虎右旗| 习水县| 顺昌县| 吴江市| 铅山县| 冷水江市| 海南省| 井冈山市| 黄龙县| 奉新县| 沁水县| 乌鲁木齐县| 方城县| 吐鲁番市|