Migician:清華大學(xué)等團(tuán)隊(duì)出的解決復(fù)雜場景下的多圖像目標(biāo)定位問題的多模態(tài)模型

映技派于2025-02-28發(fā)布在Ai產(chǎn)品

Migician 是什么？

Migician 是由清華大學(xué)、北京交通大學(xué)和華中科技大學(xué)聯(lián)合開發(fā)的一款能夠在多圖像場景中進(jìn)行自由形式（free-form）和精確定位的多模態(tài)大語言模型。它支持通過文字描述、圖片或兩者結(jié)合的方式，在多張圖像中快速定位目標(biāo)區(qū)域，提升了多圖像場景中的定位能力。

Migician主要功能

跨圖像定位：Migician 支持多種跨圖像定位方式，包括“以圖搜圖”和“文本+圖像”組合查詢。例如，在安防監(jiān)控中，輸入“身穿黑色上衣、藍(lán)色牛仔褲、頭戴白色棒球帽的男子”這樣的文本描述，模型就能在眾多監(jiān)控畫面中快速定位出符合描述的人員。
多模態(tài)融合：通過先進(jìn)的神經(jīng)網(wǎng)絡(luò)架構(gòu)，Migician 有效整合視覺與語言信息，深入挖掘跨圖像的語義關(guān)聯(lián)。例如，在處理“在一組城市街景圖像中找到有紅色汽車的畫面”任務(wù)時(shí)，模型會提取圖像中的顏色、形狀等視覺特征，同時(shí)解析文本中“紅色汽車”的語義信息，然后將兩者融合，從而更精準(zhǔn)地定位目標(biāo)。
CoT（Chain-of-Thought）推理優(yōu)化：Migician 引入 CoT 推理優(yōu)化，將復(fù)雜問題分解為多個(gè)簡單子問題，逐步推導(dǎo)得出最終答案。例如，在定位某個(gè)特定房間內(nèi)的物品時(shí)，模型會先根據(jù)文本描述判斷該房間可能所在的區(qū)域，再在該區(qū)域內(nèi)的圖像中精確定位物品。
端到端框架：Migician 采用端到端的框架，直接處理多圖像輸入，避免了傳統(tǒng)分步推理方法中誤差累積和效率低下的問題。

模型性能

性能表現(xiàn)：Migician 在多圖像定位任務(wù)中表現(xiàn)出色，顯著優(yōu)于現(xiàn)有的 MLLM，甚至在多個(gè)任務(wù)上超越了更大的 70B 模型。具體來說，Migician 在 MIG-Bench 上的表現(xiàn)比現(xiàn)有最好的 MLLM 高出 21.61%。
評估指標(biāo)：MIG-Bench 提供了 IOU@0.7、IOU@0.5、IOU@0.3 和平均 IOU 等評估指標(biāo)，用戶可以通過運(yùn)行 MIG_bench_eval.py 腳本進(jìn)行一鍵評估。

Migician在幾個(gè)通用的多圖像理解基準(zhǔn)中表現(xiàn)出了極強(qiáng)的競爭力.webp

Migician應(yīng)用場景

安防監(jiān)控：實(shí)時(shí)分析多個(gè)監(jiān)控?cái)z像頭的畫面，快速定位可疑人員、車輛或異常事件。
自動駕駛：融合車輛多個(gè)傳感器獲取的圖像信息，結(jié)合對道路、障礙物、交通標(biāo)志等的文本描述，幫助車輛更準(zhǔn)確地感知周圍環(huán)境。
醫(yī)療影像：在多幅醫(yī)學(xué)影像中快速定位病變區(qū)域，輔助診斷疾病。
機(jī)器人具身智能：幫助機(jī)器人在復(fù)雜環(huán)境中快速定位目標(biāo)物體，完成抓取、搬運(yùn)等任務(wù)。