首頁 > Ai資訊 > Ai產品

阿里推出QwenLong-L1-32B：一款用于長上下文推理的LLM

映技派于2025-05-27發布在Ai產品

2025年5月26日，阿里巴巴團隊發布QwenLong-L1-32B，首個基于強化學習訓練的長上下文大推理模型，和DocQA-RL-1.6K數據集（含1600個數學、邏輯、多跳推理類文檔問答問題）。其框架通過預熱監督微調、課程引導強化學習、難度感知回顧采樣機制解決長上下文推理強化學習中訓練效率低、優化過程不穩定的挑戰，在7個長上下文DocQA基準測試中性能優于Openai-o3-mini和Qwen3-235B-A22B，與Claude-3.7-Sonnet-Thinking持平。

模型框架

核心理念：通過強化學習（RL）將短上下文大規模推理模型（LRMs）適應到長上下文場景中。

主要組成部分：

預熱監督微調（SFT）階段：建立穩健的初始策略。
基于課程的分階段強化學習技術：穩定策略演化。
難度感知回顧采樣策略：激勵策略探索。

訓練數據

使用了名為DocQA-RL-1.6K的專門強化學習訓練數據集，包含1600個涵蓋數學、邏輯和多跳推理領域的文檔問答問題。

性能表現

在七個長上下文文檔問答基準測試中，QwenLong-L1-32B的表現超過了OpenAI-o3-mini和Qwen3-235B-A22B等旗艦級LRMs，達到了與Claude-3.7-Sonnet-Thinking相當的水平，在當前最先進的LRMs中表現出領先性能。

實驗設計

構建了一個專門的RL訓練數據集DocQA-RL-1.6K，包含1600個文檔問答問題，涵蓋數學、邏輯和多跳推理領域。
數學推理部分使用了DocMath數據集的600個問題，其中75%用于訓練，25%用于評估。
邏輯推理部分通過DeepSeek-R1合成了600個多選題，涵蓋法律、金融、保險和生產領域的實際文檔。
多跳推理部分從MultiHopRAG和Musique中各采樣200個例子，強調跨文檔推理。
在七個長上下文DocQA基準測試上進行了評估，包括2WikiMultihopQA、HotpotQA、Musique、NarrativeQA、Qasper、Frames和DocMath。

結果與分析

QwenLong-L1-32B在七個長上下文DocQA基準測試中表現優異，超過了OpenAI-o3-mini和Qwen3-235B-A22B等旗艦LRM模型，性能與Claude-3.7-Sonnet-Thinking相當。
在數學推理基準DocMath上，QwenLong-L1-32B的精確匹配和LLM判斷準確率達到了85.3%。
在多跳推理基準HotpotQA上，模型的表現達到了87.6%，顯著優于現有模型。