SegAnyMo：自動識別并精確分割視頻中所移動的物體

映技派于2025-03-31發(fā)布在Ai產(chǎn)品

SegAnyMo是什么？

SegAnyMo（Segment Any Motion in Videos）是一款智能“視頻摳圖”工具。可以自動識別并精確分割視頻中所移動的物體，它不需要人工標(biāo)注即可分割視頻中的多個移動對象，可以處理那些物體運動速度過快、畫面模糊、背景復(fù)雜的場景。

SegAnyMo是什么？.jpg

研究背景

運動目標(biāo)分割是實現(xiàn)視覺場景高級理解的關(guān)鍵任務(wù)，具有眾多下游應(yīng)用。以往的研究大多依賴光流來提供運動線索，但這種方法在面對部分運動、復(fù)雜變形、運動模糊和背景干擾等挑戰(zhàn)時，往往會導(dǎo)致預(yù)測結(jié)果不準(zhǔn)確。

方法介紹

該研究提出了一種新的運動目標(biāo)分割方法，將長距離軌跡運動線索與基于DINO的語義特征相結(jié)合，并利用SAM2通過迭代提示策略進行像素級掩碼密集化。具體流程如下：

輸入處理：以現(xiàn)成模型生成的2D軌跡和深度圖為輸入，通過運動編碼器捕捉運動模式，生成特征軌跡。
軌跡解碼：使用集成DINO特征的軌跡解碼器，對特征軌跡進行解碼，通過解耦運動和語義信息，最終獲得動態(tài)軌跡。
掩碼生成：利用SAM2將屬于同一物體的動態(tài)軌跡分組，并生成精細的運動目標(biāo)掩碼。

SegAnyMo功能

運動目標(biāo)檢測與分割：從視頻中自動檢測出運動的物體，并生成對應(yīng)的分割掩碼，精確標(biāo)識出運動物體的輪廓和位置。
處理復(fù)雜場景：能夠應(yīng)對部分運動、復(fù)雜變形、運動模糊和背景干擾等復(fù)雜場景，依然準(zhǔn)確分割目標(biāo)物體。
多目標(biāo)分割：可同時檢測和分割視頻中的多個運動目標(biāo)，為每個目標(biāo)生成獨立的分割掩碼，便于單獨處理和分析。
泛化能力：具有很強的泛化能力，能適應(yīng)不同的視頻數(shù)據(jù)集和場景，即使在未見過的場景中也能保持較高的分割精度。
結(jié)合語義信息：通過結(jié)合語義信息，更準(zhǔn)確地分割運動目標(biāo)，避免將靜止物體錯誤識別為運動物體。
實時性與效率：在一定程度上滿足實時處理需求，可應(yīng)用于對實時性要求較高的場景。
支持多種輸入：支持2D軌跡、深度圖等多種輸入數(shù)據(jù)，可根據(jù)不同輸入條件靈活調(diào)整分割策略。
可擴展性：架構(gòu)設(shè)計具有良好的可擴展性，可通過添加或調(diào)整模塊來提升性能或適應(yīng)新任務(wù)需求。

SegAnyMo：自動識別并精確分割視頻中所移動的物體.webp

技術(shù)優(yōu)勢

時空軌跡注意力機制：通過該機制，模型能夠更好地關(guān)注運動信息，同時結(jié)合語義支持，從而在復(fù)雜場景下也能準(zhǔn)確分割運動目標(biāo)。
運動語義解耦嵌入：避免了模型過度依賴語義信息而導(dǎo)致的錯誤判斷，例如不會將靜止的路面錯誤地分類為動態(tài)物體。
強大的泛化能力：在多種數(shù)據(jù)集上的廣泛測試表明，該模型在具有挑戰(zhàn)性的場景和對多個目標(biāo)的細粒度分割方面表現(xiàn)出色。