ColQwen-Omni:一款開源的多模態(tài)RAG模型
ColQwen-Omni,一款開源的多模態(tài)RAG模型,基于 ColQwen2 和 Qwen2-VL 構(gòu)建,是首個(gè)把 ColBERT 檢索范式擴(kuò)展到音頻模態(tài)的開源模型。
它支持跨模態(tài)檢索,能處理文本、音頻、圖像等多種模態(tài)數(shù)據(jù)。訓(xùn)練數(shù)據(jù)集有 127,460 個(gè)查詢 - 頁(yè)面對(duì),63% 是公開學(xué)術(shù)數(shù)據(jù)集訓(xùn)練集,37% 是合成數(shù)據(jù)集,具備零樣本音頻檢索能力。
核心亮點(diǎn)
跨模態(tài)檢索:支持文本查音頻、音頻查圖像等,所有模態(tài)數(shù)據(jù)在同一向量空間檢索。
音視頻直處理:不用轉(zhuǎn)錄,直接處理音視頻原始數(shù)據(jù),保留情感、語氣和視覺細(xì)節(jié)。
超快檢索:30 分鐘音頻 10 秒處理完,短視頻每段不到 10 秒,單次查詢不到 100 毫秒。
TMRoPE 同步:時(shí)間對(duì)齊多模態(tài)嵌入,視頻 / 音頻幀精準(zhǔn)對(duì)齊。
輕量高效:30 億參數(shù),能在 Colab 免費(fèi) GPU 上運(yùn)行。
ColQwen-Omni技術(shù)細(xì)節(jié)
訓(xùn)練策略:用 colpali-engine==0.3.11 訓(xùn)練,基于 Qwen2.5-Omni-3B-Instruct 構(gòu)建,采用 ColBERT 風(fēng)格的多向量表示策略。
訓(xùn)練數(shù)據(jù):含 127,460 個(gè)查詢 - 頁(yè)面對(duì),涵蓋公開學(xué)術(shù)數(shù)據(jù)集和合成數(shù)據(jù)集。
動(dòng)態(tài)分辨率處理:支持動(dòng)態(tài)圖像分辨率輸入,不縮放或裁剪圖像,保持原始縱橫比。
零樣本音頻檢索能力:訓(xùn)練數(shù)據(jù)雖只含圖像 - 文本對(duì),但模型仍能檢索音頻內(nèi)容。
適用場(chǎng)景
音視頻檢索:文本查 TED 演講、音頻查 YouTube 封面等。
文檔問答:PDF / 圖像問答,不用 OCR,能解析布局和圖表。
教育研究:檢索課程視頻 / 講義,進(jìn)行跨模態(tài)分析。
娛樂分析:搜索短視頻 / 播客內(nèi)容,保留情感和環(huán)境音。
隱私敏感場(chǎng)景:可在 Colab 本地運(yùn)行,數(shù)據(jù)不用上傳。
關(guān)鍵問題
ColQwen2.5-Omni 的訓(xùn)練數(shù)據(jù)集有何特點(diǎn)?
該模型的訓(xùn)練數(shù)據(jù)集有 127,460 個(gè)查詢 - 頁(yè)面對(duì),63% 是公開學(xué)術(shù)數(shù)據(jù)集訓(xùn)練集,37% 是合成數(shù)據(jù)集(含網(wǎng)頁(yè)爬取的 PDF 頁(yè)面及 VLM 生成的偽問題)。數(shù)據(jù)集設(shè)計(jì)為全英文,方便研究對(duì)非英語語言的零樣本泛化能力。其中 2% 的樣本作為驗(yàn)證集,用于調(diào)優(yōu)超參數(shù)。而且,沒有多頁(yè) PDF 文檔同時(shí)用于 ViDoRe 和訓(xùn)練集,避免評(píng)估污染。語言模型預(yù)訓(xùn)練語料和多模態(tài)訓(xùn)練中可能含多語言數(shù)據(jù)。
ColQwen2.5-Omni 在圖像處理上與 ColPali 有何不同?
ColQwen2.5-Omni 接收動(dòng)態(tài)圖像分辨率,不縮放以改變寬高比,最大分辨率最多創(chuàng)建 1024 個(gè)圖像補(bǔ)丁;ColPali 會(huì)改變圖像的寬高比。
如何使用 ColQwen2.5-Omni 進(jìn)行音頻檢索?
先安裝版本高于 0.3.11 的 colpali-engine(可通過 pip install git+https://github.com/illuin-tech/colpali安裝);再導(dǎo)入相關(guān)庫(kù),加載模型和處理器;處理音頻數(shù)據(jù)集并創(chuàng)建數(shù)據(jù)加載器,生成音頻嵌入向量;最后定義檢索函數(shù),輸入查詢文本,通過模型生成查詢嵌入向量并與音頻嵌入向量評(píng)分,獲取_topk 結(jié)果,就能展示對(duì)應(yīng)的音頻。
項(xiàng)目鏈接
GitHub地址:https://github.com/illuin-tech/colpali。
模型地址:https://huggingface.co/vidore/colqwen-omni-v0.1。