LiveCC:字節跳動和新加坡國立大學合作開發的能實時解說的視頻大語言模型
LiveCC是什么?
LiveCC是字節跳動和新加坡國立大學合作開發的視頻大語言模型,能實時解說視頻內容。它用自動語音識別(ASR)轉錄本訓練,成本低,效率高。研究人員還開發了新的流訓練方法和數據生產管道,構建了Live-CC-5M和Live-WhisperX-526K兩個數據集。即使沒有經過高質量監督微調,LiveCC-7B-Base模型在視頻問答和實時解說上表現也很出色。經過LiveSports-3K基準測試評估,最終的LiveCC-7B-Instruct模型在實時解說質量上超過了72B的先進模型,在VideoMME和OVOBench等視頻問答基準測試中也取得了頂尖成績。
LiveCC核心特點
模型訓練方法
創新訓練方式:提出一種新穎的視頻 - ASR 流訓練方法,根據時間戳將 ASR 單詞和視頻幀緊密交織,符合 ASR 的流特性,使模型能學習時間對齊、細粒度的視覺語言建模。
數據生產與數據集構建:引入數據生產管道處理 YouTube 視頻及其字幕(CC,等同于 ASR),構建了用于預訓練的Live-CC-5M數據集和用于高質量監督微調(SFT)的Live-WhisperX-526K數據集。
模型性能
LiveCC-7B-Base 模型:即便未進行 SFT,該模型在通用視頻問答任務中就展現出有競爭力的性能,還具備實時視頻解說的新能力。
LiveCC-7B-Instruct 模型:通過精心設計的LiveSports-3K基準測試(使用 LLM 作為評判標準衡量自由形式解說)評估,該模型在實時模式下的解說質量超越先進的 72B 模型(如 Qwen2.5-VL-72B-Instruct、LLaVA-Video-72B)。在流行的視頻問答基準測試(如 VideoMME 和 OVOBench)中,在 7B/8B 規模上取得了最先進的成果,證明了方法的廣泛通用性。
LiveCC應用
LiveCC 可以廣泛應用于視頻內容的實時解讀、體育賽事的實時評論、教育視頻的互動講解等領域。
常見問題
問:LiveCC 與其他視頻大語言模型在訓練數據獲取上有什么不同?
答:LiveCC 利用廉價的自動語音識別(ASR)轉錄本進行大規模訓練,而其他模型常依賴昂貴的人工注釋或專有模型 API(如 GPT-4o),這種差異使LiveCC 在訓練數據的成本和規模上更加有優勢。
問:Live-CC-5M 和 Live-WhisperX-526K 數據集分別有什么作用?
答:Live-CC-5M 數據集用于模型的預訓練,幫助模型學習通用的視覺語言特征和知識;Live-WhisperX-526K 數據集用于高質量監督微調(SFT),使模型在特定任務上表現更好,提升模型的性能。
問:LiveCC-7B-Instruct 模型在實時解說方面超越 72B 模型有什么意義?
答:表明 LiveCC 的訓練方法和模型架構有效,能夠在較低參數量下實現更高效的實時解說功能,這為視頻大語言模型在實時應用場景(如體育賽事直播解說等)的推廣提供了更具性價比的解決方案。
相關鏈接
GitHub 倉庫地址:https://github.com/showlab/livecc
Releases 頁面:https://github.com/showlab/livecc/releases
項目主頁:https://showlab.github.io/livecc/
論文鏈接:https://arxiv.org/abs/2504.06885
在線演示:https://huggingface.co/spaces/chenjoya/LiveCC