Migician:清華大學等團隊出的解決復雜場景下的多圖像目標定位問題的多模態模型
Migician 是什么?
Migician 是由清華大學、北京交通大學和華中科技大學聯合開發的一款能夠在多圖像場景中進行自由形式(free-form)和精確定位的多模態大語言模型。它支持通過文字描述、圖片或兩者結合的方式,在多張圖像中快速定位目標區域,提升了多圖像場景中的定位能力。
Migician主要功能
跨圖像定位:Migician 支持多種跨圖像定位方式,包括“以圖搜圖”和“文本+圖像”組合查詢。例如,在安防監控中,輸入“身穿黑色上衣、藍色牛仔褲、頭戴白色棒球帽的男子”這樣的文本描述,模型就能在眾多監控畫面中快速定位出符合描述的人員。
多模態融合:通過先進的神經網絡架構,Migician 有效整合視覺與語言信息,深入挖掘跨圖像的語義關聯。例如,在處理“在一組城市街景圖像中找到有紅色汽車的畫面”任務時,模型會提取圖像中的顏色、形狀等視覺特征,同時解析文本中“紅色汽車”的語義信息,然后將兩者融合,從而更精準地定位目標。
CoT(Chain-of-Thought)推理優化:Migician 引入 CoT 推理優化,將復雜問題分解為多個簡單子問題,逐步推導得出最終答案。例如,在定位某個特定房間內的物品時,模型會先根據文本描述判斷該房間可能所在的區域,再在該區域內的圖像中精確定位物品。
端到端框架:Migician 采用端到端的框架,直接處理多圖像輸入,避免了傳統分步推理方法中誤差累積和效率低下的問題。
模型性能
性能表現:Migician 在多圖像定位任務中表現出色,顯著優于現有的 MLLM,甚至在多個任務上超越了更大的 70B 模型。具體來說,Migician 在 MIG-Bench 上的表現比現有最好的 MLLM 高出 21.61%。
評估指標:MIG-Bench 提供了 IOU@0.7、IOU@0.5、IOU@0.3 和平均 IOU 等評估指標,用戶可以通過運行 MIG_bench_eval.py 腳本進行一鍵評估。
Migician應用場景
安防監控:實時分析多個監控攝像頭的畫面,快速定位可疑人員、車輛或異常事件。
自動駕駛:融合車輛多個傳感器獲取的圖像信息,結合對道路、障礙物、交通標志等的文本描述,幫助車輛更準確地感知周圍環境。
醫療影像:在多幅醫學影像中快速定位病變區域,輔助診斷疾病。
機器人具身智能:幫助機器人在復雜環境中快速定位目標物體,完成抓取、搬運等任務。
Migician項目資源
GitHub倉庫:https://github.com/thunlp/Migician
論文地址:https://arxiv.org/pdf/2501.05767
Migician 是一款專門用于多圖像定位任務的強大工具,借助大規模數據集 MGrounding-630k 和綜合測試基準 MIG-Bench,它在多圖像場景中的定位能力得到了顯著提升。