
YOLO-World
YOLO-World簡介
YOLO-World,騰訊ai實驗室開發的一個實時目標檢測工具,它能夠自動識別和定位圖像中的各種對象。YOLO-World在速度和準確性方面都優于許多最先進的方法。
YOLO-World 是下一代 YOLO 檢測器,旨在實時開放詞匯目標檢測。YOLO-World在大規模視覺語言數據集(包括Objects365、GQA、Flickr30K和CC3M)上進行了預訓練,這使得YOLO-World具有強大的零樣本開放詞匯能力和圖像落地能力,無需訓練即可進行實時目標檢測,即便某些物品之前沒有見過,YOLO-World適用于物體檢測和開放詞匯實例分割。
YOLO-World功能特點:
1、大規模學習:YOLO-World通過學習大量的圖片和對應的描述(如物品名稱),獲得了豐富的視覺知識和語言知識,這使得它能識別出廣泛的物品。
該項目在包括Objects365、GQA、Flickr30K和CC3M在內的大規模視覺-語言數據集上進行了預訓練,賦予了YOLO-World強大的零樣本開放詞匯能力和圖像中的定位能力。
2、快速準確:YOLO-World在LVIS數據集上的零樣本評估中達到了35.4 AP,并且在V100上的處理速度為52.0 FPS,速度和準確性均超過許多最先進的方法。即使是在包含復雜場景的圖片中也能保持高準確率。YOLO-World 聲稱比 GroundingDINO 快 20 倍。
3、零樣本檢測:最令人印象深刻的是,即便某些物品YOLO-World之前沒有見過,它也能憑借先前的學習和理解能力,通過圖片中的線索和上下文信息,成功識別和定位這些新物品,這意味著我們不必訓練它來讓它檢測新的一類物體。我們只需要給出類名作為輸入文本提示,模型將返回這些對象的邊界框(如果存在)。
4、理解物體:YOLO-World不僅依靠視覺信息,還結合了語言信息。它理解人類的語言描述,這讓它能夠識別出即使是之前沒有直接見過的物體。
5、與現有的開放詞匯檢測方法相比,YOLO-World模型至少快 20 倍。每秒可以處理大約 52 幀。
6、在LVIS對象檢測數據集上設置了最先進的新數據集。