我爱我色成人网,欧美日韩国产色,欧美亚视频在线中文字幕免费,亚洲国产影院

阿里推出QwenLong-L1-32B:一款用于長上下文推理的LLM

2025年5月26日,阿里巴巴團隊發(fā)布QwenLong-L1-32B,首個基于強化學(xué)習(xí)訓(xùn)練的長上下文大推理模型,和DocQA-RL-1.6K數(shù)據(jù)集(含1600個數(shù)學(xué)、邏輯、多跳推理類文檔問答問題)。其框架通過預(yù)熱監(jiān)督微調(diào)、課程引導(dǎo)強化學(xué)習(xí)、難度感知回顧采樣機制解決長上下文推理強化學(xué)習(xí)中訓(xùn)練效率低、優(yōu)化過程不穩(wěn)定的挑戰(zhàn),在7個長上下文DocQA基準(zhǔn)測試中性能優(yōu)于Openai-o3-mini和Qwen3-235B-A22B,與Claude-3.7-Sonnet-Thinking持平。

fig1.webp

模型框架

核心理念:通過強化學(xué)習(xí)(RL)將短上下文大規(guī)模推理模型(LRMs)適應(yīng)到長上下文場景中。

主要組成部分:

  • 預(yù)熱監(jiān)督微調(diào)(SFT)階段:建立穩(wěn)健的初始策略。

  • 基于課程的分階段強化學(xué)習(xí)技術(shù):穩(wěn)定策略演化。

  • 難度感知回顧采樣策略:激勵策略探索。

訓(xùn)練數(shù)據(jù)

使用了名為DocQA-RL-1.6K的專門強化學(xué)習(xí)訓(xùn)練數(shù)據(jù)集,包含1600個涵蓋數(shù)學(xué)、邏輯和多跳推理領(lǐng)域的文檔問答問題。

性能表現(xiàn)

  • 在七個長上下文文檔問答基準(zhǔn)測試中,QwenLong-L1-32B的表現(xiàn)超過了OpenAI-o3-mini和Qwen3-235B-A22B等旗艦級LRMs,達到了與Claude-3.7-Sonnet-Thinking相當(dāng)?shù)乃剑诋?dāng)前最先進的LRMs中表現(xiàn)出領(lǐng)先性能。

實驗設(shè)計

  • 構(gòu)建了一個專門的RL訓(xùn)練數(shù)據(jù)集DocQA-RL-1.6K,包含1600個文檔問答問題,涵蓋數(shù)學(xué)、邏輯和多跳推理領(lǐng)域。

  • 數(shù)學(xué)推理部分使用了DocMath數(shù)據(jù)集的600個問題,其中75%用于訓(xùn)練,25%用于評估。

  • 邏輯推理部分通過DeepSeek-R1合成了600個多選題,涵蓋法律、金融、保險和生產(chǎn)領(lǐng)域的實際文檔。

  • 多跳推理部分從MultiHopRAG和Musique中各采樣200個例子,強調(diào)跨文檔推理。

  • 在七個長上下文DocQA基準(zhǔn)測試上進行了評估,包括2WikiMultihopQA、HotpotQA、Musique、NarrativeQA、Qasper、Frames和DocMath。

結(jié)果與分析

  • QwenLong-L1-32B在七個長上下文DocQA基準(zhǔn)測試中表現(xiàn)優(yōu)異,超過了OpenAI-o3-mini和Qwen3-235B-A22B等旗艦LRM模型,性能與Claude-3.7-Sonnet-Thinking相當(dāng)。

  • 在數(shù)學(xué)推理基準(zhǔn)DocMath上,QwenLong-L1-32B的精確匹配和LLM判斷準(zhǔn)確率達到了85.3%。

  • 在多跳推理基準(zhǔn)HotpotQA上,模型的表現(xiàn)達到了87.6%,顯著優(yōu)于現(xiàn)有模型。

項目鏈接

Github:https://github.com/Tongyi-Zhiwen/QwenLong-L1

Huggingface:https://huggingface.co/Tongyi-Zhiwen/QwenLong-L1-32B

Modelscope:https://www.modelscope.cn/models/iic/QwenLong-L1-32B

收藏
最新工具
Opera Neon
Opera Neon

一款集成AI代理功能的創(chuàng)新瀏覽器,具備聊天、執(zhí)行任務(wù)和創(chuàng)作等功能...

ThetaWave AI
ThetaWave AI

一款能幫學(xué)生把課堂筆記、文件、視頻等變成好整理的筆記的AI學(xué)習(xí)工...

Dpdf
Dpdf

好用的在線 PDF工具網(wǎng)站,提供免費的在線PDF工具,包括合并、...

AI角色腦洞生成器
AI角色腦洞生成器

它可以幫助你快速生成小說、漫畫、游戲角色設(shè)定,包括角色的名稱、性...

剪小映
剪小映

剪映團隊推出的一款A(yù)I視頻剪輯智能成片工具,主打一鍵式操作,提供...

HermitAI
HermitAI

一款專為外貿(mào)/跨境人員打造的營銷文案撰寫工具,可以智能生成多場景...

ChatEDU
ChatEDU

多模態(tài)教育工具,通過借助生成式 AI成為學(xué)生的 “第二大腦”。提...

NBFOX麥田藝術(shù)
NBFOX麥田藝術(shù)

免費可商用的高清藝術(shù)資源庫,提供超 10 萬張無水印高清名畫油畫...

Instructables
Instructables

一個DIY創(chuàng)意項目分享平臺,包括電路、木工、手工、烹飪、家居裝飾...

ScribeHow
ScribeHow

一款可以自動將用戶操作過程生成為可視化的操作指南工具,可通過 C...

主站蜘蛛池模板: 丽江市| 永清县| 荆州市| 黔江区| 铜陵市| 乡城县| 泰宁县| 措勤县| 舞阳县| 商洛市| 闽清县| 揭阳市| 望都县| 麦盖提县| 射洪县| 肃宁县| 连城县| 卢氏县| 宜良县| 台东县| 谢通门县| 建始县| 永修县| 深州市| 米脂县| 明溪县| 股票| 重庆市| 改则县| 闽侯县| 十堰市| 玉溪市| 大港区| 鞍山市| 商城县| 阿拉尔市| 黑龙江省| 南通市| 长乐市| 兴山县| 夏邑县|