首頁 > Ai資訊 > Ai產品

ColQwen-Omni：一款開源的多模態(tài)RAG模型

ColQwen-Omni于2025-07-19發(fā)布在Ai產品

ColQwen-Omni，一款開源的多模態(tài)RAG模型，基于 ColQwen2 和 Qwen2-VL 構建，是首個把 ColBERT 檢索范式擴展到音頻模態(tài)的開源模型。

它支持跨模態(tài)檢索，能處理文本、音頻、圖像等多種模態(tài)數(shù)據(jù)。訓練數(shù)據(jù)集有 127,460 個查詢 - 頁面對，63% 是公開學術數(shù)據(jù)集訓練集，37% 是合成數(shù)據(jù)集，具備零樣本音頻檢索能力。

核心亮點

跨模態(tài)檢索：支持文本查音頻、音頻查圖像等，所有模態(tài)數(shù)據(jù)在同一向量空間檢索。
音視頻直處理：不用轉錄，直接處理音視頻原始數(shù)據(jù)，保留情感、語氣和視覺細節(jié)。
超快檢索：30 分鐘音頻 10 秒處理完，短視頻每段不到 10 秒，單次查詢不到 100 毫秒。
TMRoPE 同步：時間對齊多模態(tài)嵌入，視頻 / 音頻幀精準對齊。
輕量高效：30 億參數(shù)，能在 Colab 免費 GPU 上運行。

ColQwen-Omni技術細節(jié)

訓練策略：用 colpali-engine==0.3.11 訓練，基于 Qwen2.5-Omni-3B-Instruct 構建，采用 ColBERT 風格的多向量表示策略。
訓練數(shù)據(jù)：含 127,460 個查詢 - 頁面對，涵蓋公開學術數(shù)據(jù)集和合成數(shù)據(jù)集。
動態(tài)分辨率處理：支持動態(tài)圖像分辨率輸入，不縮放或裁剪圖像，保持原始縱橫比。
零樣本音頻檢索能力：訓練數(shù)據(jù)雖只含圖像 - 文本對，但模型仍能檢索音頻內容。

ColQwen-Omni技術細節(jié)

適用場景

音視頻檢索：文本查 TED 演講、音頻查 YouTube 封面等。
文檔問答：PDF / 圖像問答，不用 OCR，能解析布局和圖表。
教育研究：檢索課程視頻 / 講義，進行跨模態(tài)分析。
娛樂分析：搜索短視頻 / 播客內容，保留情感和環(huán)境音。
隱私敏感場景：可在 Colab 本地運行，數(shù)據(jù)不用上傳。

關鍵問題

ColQwen2.5-Omni 的訓練數(shù)據(jù)集有何特點？

該模型的訓練數(shù)據(jù)集有 127,460 個查詢 - 頁面對，63% 是公開學術數(shù)據(jù)集訓練集，37% 是合成數(shù)據(jù)集（含網(wǎng)頁爬取的 PDF 頁面及 VLM 生成的偽問題）。數(shù)據(jù)集設計為全英文，方便研究對非英語語言的零樣本泛化能力。其中 2% 的樣本作為驗證集，用于調優(yōu)超參數(shù)。而且，沒有多頁 PDF 文檔同時用于 ViDoRe 和訓練集，避免評估污染。語言模型預訓練語料和多模態(tài)訓練中可能含多語言數(shù)據(jù)。

ColQwen2.5-Omni 在圖像處理上與 ColPali 有何不同？

ColQwen2.5-Omni 接收動態(tài)圖像分辨率，不縮放以改變寬高比，最大分辨率最多創(chuàng)建 1024 個圖像補丁；ColPali 會改變圖像的寬高比。

如何使用 ColQwen2.5-Omni 進行音頻檢索？

先安裝版本高于 0.3.11 的 colpali-engine（可通過 pip install git+https://github.com/illuin-tech/colpali安裝）；再導入相關庫，加載模型和處理器；處理音頻數(shù)據(jù)集并創(chuàng)建數(shù)據(jù)加載器，生成音頻嵌入向量；最后定義檢索函數(shù)，輸入查詢文本，通過模型生成查詢嵌入向量并與音頻嵌入向量評分，獲取_topk 結果，就能展示對應的音頻。