阿里巴巴正式推出開(kāi)源大模型Qwen2.5-1M
阿里巴巴于2025年1月27日正式推出開(kāi)源大模型Qwen2.5-1M系列,這是通義千問(wèn)團(tuán)隊(duì)首次將開(kāi)源模型的上下文長(zhǎng)度擴(kuò)展至100萬(wàn)Tokens(約合10本長(zhǎng)篇小說(shuō)或3萬(wàn)行代碼),并在長(zhǎng)文本處理性能上實(shí)現(xiàn)顯著突破。
一、Qwen2.5-1M主要特點(diǎn)
超長(zhǎng)上下文支持:Qwen2.5-1M模型支持高達(dá)100萬(wàn)tokens的上下文處理,相當(dāng)于約100萬(wàn)個(gè)英文單詞或150萬(wàn)個(gè)漢字。這一特性使得模型能夠處理長(zhǎng)篇文檔,如書(shū)籍、法律文件和長(zhǎng)篇報(bào)告,而無(wú)需進(jìn)行繁瑣的文本分割。
多種模型尺寸:此次發(fā)布的模型包括Qwen2.5-7B-Instruct-1M和Qwen2.5-14B-Instruct-1M,提供了不同的參數(shù)規(guī)模,以滿足不同應(yīng)用場(chǎng)景的需求。
高效的推理框架:Qwen團(tuán)隊(duì)開(kāi)源了基于vLLM的推理框架,集成了稀疏注意力機(jī)制,使得在處理1M標(biāo)記輸入時(shí)的速度提升了3倍到7倍。這種高效性使得開(kāi)發(fā)者能夠更快速地部署和應(yīng)用模型。
性能優(yōu)勢(shì):在長(zhǎng)文本任務(wù)中,Qwen2.5-1M模型的表現(xiàn)顯著優(yōu)于之前的128K版本,特別是在處理超過(guò)64K長(zhǎng)度的任務(wù)時(shí),展現(xiàn)出更強(qiáng)的能力。
二、模型特性與性能表現(xiàn)
長(zhǎng)上下文處理能力
百萬(wàn)Tokens支持:Qwen2.5-1M系列包含7B和14B兩個(gè)版本,原生支持1M Tokens上下文長(zhǎng)度,可處理長(zhǎng)篇文檔、代碼倉(cāng)庫(kù)或復(fù)雜多輪對(duì)話,無(wú)需分段輸入。
精準(zhǔn)檢索與理解:在“大海撈針”(Passkey Retrieval)任務(wù)中,模型能從1M Tokens文檔中準(zhǔn)確提取隱藏信息,僅7B版本出現(xiàn)少量錯(cuò)誤;在RULER、LV-eval等長(zhǎng)文本理解基準(zhǔn)測(cè)試中,14B版本表現(xiàn)穩(wěn)定超越自家閉源模型Qwen2.5-Turbo和Openai的GPT-4o-mini。
短文本任務(wù)兼容性
7B和14B模型在短文本任務(wù)(如問(wèn)答、摘要)中表現(xiàn)與128K版本相當(dāng),未因長(zhǎng)上下文能力增強(qiáng)而犧牲基礎(chǔ)性能。例如,14B模型在短文本任務(wù)中與GPT-4o-mini性能接近,但上下文長(zhǎng)度是其8倍。
三、技術(shù)突破與開(kāi)源框架
漸進(jìn)式訓(xùn)練與長(zhǎng)度外推
分階段擴(kuò)展:從預(yù)訓(xùn)練到監(jiān)督微調(diào),逐步將上下文長(zhǎng)度從4K擴(kuò)展至256K,再通過(guò)強(qiáng)化學(xué)習(xí)優(yōu)化短文本對(duì)齊能力56。
Dual Chunk Attention(DCA):引入創(chuàng)新的位置編碼外推技術(shù),無(wú)需額外訓(xùn)練即可將模型支持的上下文長(zhǎng)度從256K擴(kuò)展至1M,解決了長(zhǎng)距離位置編碼的注意力退化問(wèn)題。
高效推理優(yōu)化
稀疏注意力機(jī)制:基于vLLM框架集成稀疏注意力(MInference),結(jié)合分塊預(yù)填充和動(dòng)態(tài)并行技術(shù),使1M Tokens輸入的推理速度提升3.2至6.7倍,顯著降低內(nèi)存占用(如7B模型激活內(nèi)存減少96.7%)。
開(kāi)源框架支持:完全開(kāi)源推理框架及訓(xùn)練技術(shù)報(bào)告,開(kāi)發(fā)者可快速部署模型,并支持FP8量化以降低硬件需求。
四、應(yīng)用場(chǎng)景
文本生成:Qwen2.5-1M模型可以用于生成長(zhǎng)篇文章、報(bào)告和故事,適用于內(nèi)容創(chuàng)作、新聞寫(xiě)作等領(lǐng)域。
信息檢索:由于其超長(zhǎng)上下文處理能力,模型可以在長(zhǎng)文本中進(jìn)行有效的信息檢索,適合用于法律、醫(yī)療等需要處理大量文檔的行業(yè)。
對(duì)話系統(tǒng):該模型可以用于構(gòu)建智能對(duì)話系統(tǒng),能夠理解和生成復(fù)雜的對(duì)話內(nèi)容,提升用戶(hù)體驗(yàn)。
多模態(tài)應(yīng)用:Qwen2.5-1M模型的設(shè)計(jì)使其能夠與其他模態(tài)(如圖像、音頻)結(jié)合,擴(kuò)展其應(yīng)用范圍到多模態(tài)理解和生成任務(wù)中。
Qwen2.5-1M的發(fā)布不僅填補(bǔ)了開(kāi)源模型在超長(zhǎng)上下文處理領(lǐng)域的空白,更通過(guò)技術(shù)創(chuàng)新與生態(tài)開(kāi)放,為開(kāi)發(fā)者提供了高性能、低門(mén)檻的工具選擇。其成功可能加速全球AI產(chǎn)業(yè)對(duì)長(zhǎng)文本應(yīng)用的探索,并推動(dòng)開(kāi)源社區(qū)在AGI競(jìng)賽中的角色升級(jí)。