Qwen2.5-Omni:阿里巴巴發(fā)布的端到端全能多模態(tài)旗艦?zāi)P?/h1>
Qwen2.5-Omni是什么?
Qwen2.5-Omni 是阿里巴巴發(fā)布的Qwen 系列中的新一代端到端多模態(tài)旗艦?zāi)P汀K鼘槿轿欢嗄B(tài)感知設(shè)計(jì),也就是可以理解文本、音頻、圖像、視頻,可以同時(shí)進(jìn)行思考和說話,并通過實(shí)時(shí)流式響應(yīng)同時(shí)生成文本與自然語音合成輸出的一個(gè)ai模型。
Qwen2.5-Omni核心特點(diǎn)
創(chuàng)新架構(gòu):
Thinker-Talker 架構(gòu):Thinker 負(fù)責(zé)處理和理解來自文本、音頻和視頻模態(tài)的輸入,生成高級(jí)語義表征和對(duì)應(yīng)的文本內(nèi)容;Talker 則將這些內(nèi)容轉(zhuǎn)化為自然語音輸出。
TMRoPE 技術(shù):提出了一種名為 TMRoPE(Time-aligned Multimodal RoPE)的新型位置編碼技術(shù),用于同步視頻輸入與音頻的時(shí)間戳。
實(shí)時(shí)交互:
支持完全實(shí)時(shí)交互,能夠處理分塊輸入并即時(shí)輸出。
自然流暢的語音生成:
在語音生成的自然性和穩(wěn)定性方面超越了許多現(xiàn)有的流式和非流式替代方案。
全模態(tài)性能優(yōu)勢(shì):
在多模態(tài)任務(wù)(如 OmniBench)中表現(xiàn)出色,同時(shí)在單模態(tài)任務(wù)(如語音識(shí)別、翻譯、音頻理解、圖像推理、視頻理解等)中也表現(xiàn)出色。
端到端語音指令跟隨能力:
在端到端語音指令跟隨方面表現(xiàn)出與文本輸入處理相媲美的效果,在 MMLU 和 GSM8K 等基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異。
Qwen2.5-Omni架構(gòu)設(shè)計(jì)
Thinker:類似于大腦,負(fù)責(zé)處理和理解來自文本、音頻和視頻模態(tài)的輸入,生成高級(jí)語義表征和對(duì)應(yīng)的文本內(nèi)容。
Talker:類似于人類的嘴巴,接收 Thinker 生成的高級(jí)語義表征和文本內(nèi)容,并以流式方式輸出自然語音。
整體架構(gòu):Thinker 是一個(gè) Transformer 解碼器,配備用于音頻和圖像的編碼器以提取信息。Talker 是一個(gè)雙軌自回歸 Transformer 解碼器架構(gòu)。在訓(xùn)練和推理過程中,Talker 直接接收來自 Thinker 的高維表征,并共享 Thinker 的所有歷史上下文信息,整個(gè)架構(gòu)作為一個(gè)統(tǒng)一的模型進(jìn)行端到端訓(xùn)練和推理。
Qwen2.5-Omni性能表現(xiàn)
在多模態(tài)任務(wù)(如 OmniBench)中,Qwen2.5-Omni 實(shí)現(xiàn)了最先進(jìn)的性能。
在單模態(tài)任務(wù)中,它在語音識(shí)別(Common Voice)、翻譯(CoVoST2)、音頻理解(MMAU)、圖像推理(MMMU、MMStar)、視頻理解(MVBench)和語音生成(Seed-tts-eval 和主觀自然性)等方面表現(xiàn)出色。
相關(guān)鏈接
Qwen Chat:https://chat.qwenlm.ai
Hugging Face:https://huggingface.co/Qwen/Qwen2.5-Omni-7B
ModelScope:https://modelscope.cn/models/Qwen/Qwen2.5-Omni-7B
DashScope:https://help.aliyun.com/zh/model-studio/user-guide/qwen-omni
GitHub:https://github.com/QwenLM/Qwen2.5-Omni
Demo體驗(yàn):https://modelscope.cn/studios/Qwen/Qwen2.5-Omni-Demo