ColQwen-Omni:一款開源的多模態(tài)RAG模型
ColQwen-Omni,一款開源的多模態(tài)RAG模型,基于 ColQwen2 和 Qwen2-VL 構(gòu)建,是首個把 ColBERT 檢索范式擴展到音頻模態(tài)的開源模型。
它支持跨模態(tài)檢索,能處理文本、音頻、圖像等多種模態(tài)數(shù)據(jù)。訓(xùn)練數(shù)據(jù)集有 127,460 個查詢 - 頁面對,63% 是公開學(xué)術(shù)數(shù)據(jù)集訓(xùn)練集,37% 是合成數(shù)據(jù)集,具備零樣本音頻檢索能力。
核心亮點
跨模態(tài)檢索:支持文本查音頻、音頻查圖像等,所有模態(tài)數(shù)據(jù)在同一向量空間檢索。
音視頻直處理:不用轉(zhuǎn)錄,直接處理音視頻原始數(shù)據(jù),保留情感、語氣和視覺細節(jié)。
超快檢索:30 分鐘音頻 10 秒處理完,短視頻每段不到 10 秒,單次查詢不到 100 毫秒。
TMRoPE 同步:時間對齊多模態(tài)嵌入,視頻 / 音頻幀精準對齊。
輕量高效:30 億參數(shù),能在 Colab 免費 GPU 上運行。
ColQwen-Omni技術(shù)細節(jié)
訓(xùn)練策略:用 colpali-engine==0.3.11 訓(xùn)練,基于 Qwen2.5-Omni-3B-Instruct 構(gòu)建,采用 ColBERT 風(fēng)格的多向量表示策略。
訓(xùn)練數(shù)據(jù):含 127,460 個查詢 - 頁面對,涵蓋公開學(xué)術(shù)數(shù)據(jù)集和合成數(shù)據(jù)集。
動態(tài)分辨率處理:支持動態(tài)圖像分辨率輸入,不縮放或裁剪圖像,保持原始縱橫比。
零樣本音頻檢索能力:訓(xùn)練數(shù)據(jù)雖只含圖像 - 文本對,但模型仍能檢索音頻內(nèi)容。
適用場景
音視頻檢索:文本查 TED 演講、音頻查 YouTube 封面等。
文檔問答:PDF / 圖像問答,不用 OCR,能解析布局和圖表。
教育研究:檢索課程視頻 / 講義,進行跨模態(tài)分析。
娛樂分析:搜索短視頻 / 播客內(nèi)容,保留情感和環(huán)境音。
隱私敏感場景:可在 Colab 本地運行,數(shù)據(jù)不用上傳。
關(guān)鍵問題
ColQwen2.5-Omni 的訓(xùn)練數(shù)據(jù)集有何特點?
該模型的訓(xùn)練數(shù)據(jù)集有 127,460 個查詢 - 頁面對,63% 是公開學(xué)術(shù)數(shù)據(jù)集訓(xùn)練集,37% 是合成數(shù)據(jù)集(含網(wǎng)頁爬取的 PDF 頁面及 VLM 生成的偽問題)。數(shù)據(jù)集設(shè)計為全英文,方便研究對非英語語言的零樣本泛化能力。其中 2% 的樣本作為驗證集,用于調(diào)優(yōu)超參數(shù)。而且,沒有多頁 PDF 文檔同時用于 ViDoRe 和訓(xùn)練集,避免評估污染。語言模型預(yù)訓(xùn)練語料和多模態(tài)訓(xùn)練中可能含多語言數(shù)據(jù)。
ColQwen2.5-Omni 在圖像處理上與 ColPali 有何不同?
ColQwen2.5-Omni 接收動態(tài)圖像分辨率,不縮放以改變寬高比,最大分辨率最多創(chuàng)建 1024 個圖像補丁;ColPali 會改變圖像的寬高比。
如何使用 ColQwen2.5-Omni 進行音頻檢索?
先安裝版本高于 0.3.11 的 colpali-engine(可通過 pip install git+https://github.com/illuin-tech/colpali安裝);再導(dǎo)入相關(guān)庫,加載模型和處理器;處理音頻數(shù)據(jù)集并創(chuàng)建數(shù)據(jù)加載器,生成音頻嵌入向量;最后定義檢索函數(shù),輸入查詢文本,通過模型生成查詢嵌入向量并與音頻嵌入向量評分,獲取_topk 結(jié)果,就能展示對應(yīng)的音頻。
項目鏈接
GitHub地址:https://github.com/illuin-tech/colpali。
模型地址:https://huggingface.co/vidore/colqwen-omni-v0.1。