Migician:清華大學(xué)等團(tuán)隊(duì)出的解決復(fù)雜場景下的多圖像目標(biāo)定位問題的多模態(tài)模型
Migician 是什么?
Migician 是由清華大學(xué)、北京交通大學(xué)和華中科技大學(xué)聯(lián)合開發(fā)的一款能夠在多圖像場景中進(jìn)行自由形式(free-form)和精確定位的多模態(tài)大語言模型。它支持通過文字描述、圖片或兩者結(jié)合的方式,在多張圖像中快速定位目標(biāo)區(qū)域,提升了多圖像場景中的定位能力。
Migician主要功能
跨圖像定位:Migician 支持多種跨圖像定位方式,包括“以圖搜圖”和“文本+圖像”組合查詢。例如,在安防監(jiān)控中,輸入“身穿黑色上衣、藍(lán)色牛仔褲、頭戴白色棒球帽的男子”這樣的文本描述,模型就能在眾多監(jiān)控畫面中快速定位出符合描述的人員。
多模態(tài)融合:通過先進(jìn)的神經(jīng)網(wǎng)絡(luò)架構(gòu),Migician 有效整合視覺與語言信息,深入挖掘跨圖像的語義關(guān)聯(lián)。例如,在處理“在一組城市街景圖像中找到有紅色汽車的畫面”任務(wù)時(shí),模型會提取圖像中的顏色、形狀等視覺特征,同時(shí)解析文本中“紅色汽車”的語義信息,然后將兩者融合,從而更精準(zhǔn)地定位目標(biāo)。
CoT(Chain-of-Thought)推理優(yōu)化:Migician 引入 CoT 推理優(yōu)化,將復(fù)雜問題分解為多個(gè)簡單子問題,逐步推導(dǎo)得出最終答案。例如,在定位某個(gè)特定房間內(nèi)的物品時(shí),模型會先根據(jù)文本描述判斷該房間可能所在的區(qū)域,再在該區(qū)域內(nèi)的圖像中精確定位物品。
端到端框架:Migician 采用端到端的框架,直接處理多圖像輸入,避免了傳統(tǒng)分步推理方法中誤差累積和效率低下的問題。
模型性能
性能表現(xiàn):Migician 在多圖像定位任務(wù)中表現(xiàn)出色,顯著優(yōu)于現(xiàn)有的 MLLM,甚至在多個(gè)任務(wù)上超越了更大的 70B 模型。具體來說,Migician 在 MIG-Bench 上的表現(xiàn)比現(xiàn)有最好的 MLLM 高出 21.61%。
評估指標(biāo):MIG-Bench 提供了 IOU@0.7、IOU@0.5、IOU@0.3 和平均 IOU 等評估指標(biāo),用戶可以通過運(yùn)行 MIG_bench_eval.py 腳本進(jìn)行一鍵評估。
Migician應(yīng)用場景
安防監(jiān)控:實(shí)時(shí)分析多個(gè)監(jiān)控?cái)z像頭的畫面,快速定位可疑人員、車輛或異常事件。
自動駕駛:融合車輛多個(gè)傳感器獲取的圖像信息,結(jié)合對道路、障礙物、交通標(biāo)志等的文本描述,幫助車輛更準(zhǔn)確地感知周圍環(huán)境。
醫(yī)療影像:在多幅醫(yī)學(xué)影像中快速定位病變區(qū)域,輔助診斷疾病。
機(jī)器人具身智能:幫助機(jī)器人在復(fù)雜環(huán)境中快速定位目標(biāo)物體,完成抓取、搬運(yùn)等任務(wù)。
Migician項(xiàng)目資源
GitHub倉庫:https://github.com/thunlp/Migician
論文地址:https://arxiv.org/pdf/2501.05767
Migician 是一款專門用于多圖像定位任務(wù)的強(qiáng)大工具,借助大規(guī)模數(shù)據(jù)集 MGrounding-630k 和綜合測試基準(zhǔn) MIG-Bench,它在多圖像場景中的定位能力得到了顯著提升。