我爱我色成人网,欧美日韩国产色,欧美亚视频在线中文字幕免费,亚洲国产影院

LiveCC:字節(jié)跳動和新加坡國立大學(xué)合作開發(fā)的能實(shí)時解說的視頻大語言模型

LiveCC是什么?

LiveCC是字節(jié)跳動和新加坡國立大學(xué)合作開發(fā)的視頻大語言模型,能實(shí)時解說視頻內(nèi)容。它用自動語音識別(ASR)轉(zhuǎn)錄本訓(xùn)練,成本低,效率高。研究人員還開發(fā)了新的流訓(xùn)練方法和數(shù)據(jù)生產(chǎn)管道,構(gòu)建了Live-CC-5M和Live-WhisperX-526K兩個數(shù)據(jù)集。即使沒有經(jīng)過高質(zhì)量監(jiān)督微調(diào),LiveCC-7B-Base模型在視頻問答和實(shí)時解說上表現(xiàn)也很出色。經(jīng)過LiveSports-3K基準(zhǔn)測試評估,最終的LiveCC-7B-Instruct模型在實(shí)時解說質(zhì)量上超過了72B的先進(jìn)模型,在VideoMME和OVOBench等視頻問答基準(zhǔn)測試中也取得了頂尖成績。

LiveCC核心特點(diǎn)

模型訓(xùn)練方法

  • 創(chuàng)新訓(xùn)練方式:提出一種新穎的視頻 - ASR 流訓(xùn)練方法,根據(jù)時間戳將 ASR 單詞和視頻幀緊密交織,符合 ASR 的流特性,使模型能學(xué)習(xí)時間對齊、細(xì)粒度的視覺語言建模。

  • 數(shù)據(jù)生產(chǎn)與數(shù)據(jù)集構(gòu)建:引入數(shù)據(jù)生產(chǎn)管道處理 YouTube 視頻及其字幕(CC,等同于 ASR),構(gòu)建了用于預(yù)訓(xùn)練的Live-CC-5M數(shù)據(jù)集和用于高質(zhì)量監(jiān)督微調(diào)(SFT)的Live-WhisperX-526K數(shù)據(jù)集。

模型訓(xùn)練方法.webp

模型性能

  • LiveCC-7B-Base 模型:即便未進(jìn)行 SFT,該模型在通用視頻問答任務(wù)中就展現(xiàn)出有競爭力的性能,還具備實(shí)時視頻解說的新能力。

  • LiveCC-7B-Instruct 模型:通過精心設(shè)計(jì)的LiveSports-3K基準(zhǔn)測試(使用 LLM 作為評判標(biāo)準(zhǔn)衡量自由形式解說)評估,該模型在實(shí)時模式下的解說質(zhì)量超越先進(jìn)的 72B 模型(如 Qwen2.5-VL-72B-Instruct、LLaVA-Video-72B)。在流行的視頻問答基準(zhǔn)測試(如 VideoMME 和 OVOBench)中,在 7B/8B 規(guī)模上取得了最先進(jìn)的成果,證明了方法的廣泛通用性。

LiveCC應(yīng)用.webp

LiveCC應(yīng)用

  • LiveCC 可以廣泛應(yīng)用于視頻內(nèi)容的實(shí)時解讀、體育賽事的實(shí)時評論、教育視頻的互動講解等領(lǐng)域。

常見問題

問:LiveCC 與其他視頻大語言模型在訓(xùn)練數(shù)據(jù)獲取上有什么不同?

答:LiveCC 利用廉價(jià)的自動語音識別(ASR)轉(zhuǎn)錄本進(jìn)行大規(guī)模訓(xùn)練,而其他模型常依賴昂貴的人工注釋或?qū)S心P?API(如 GPT-4o),這種差異使LiveCC 在訓(xùn)練數(shù)據(jù)的成本和規(guī)模上更加有優(yōu)勢。

問:Live-CC-5M 和 Live-WhisperX-526K 數(shù)據(jù)集分別有什么作用?

答:Live-CC-5M 數(shù)據(jù)集用于模型的預(yù)訓(xùn)練,幫助模型學(xué)習(xí)通用的視覺語言特征和知識;Live-WhisperX-526K 數(shù)據(jù)集用于高質(zhì)量監(jiān)督微調(diào)(SFT),使模型在特定任務(wù)上表現(xiàn)更好,提升模型的性能。

問:LiveCC-7B-Instruct 模型在實(shí)時解說方面超越 72B 模型有什么意義?

答:表明 LiveCC 的訓(xùn)練方法和模型架構(gòu)有效,能夠在較低參數(shù)量下實(shí)現(xiàn)更高效的實(shí)時解說功能,這為視頻大語言模型在實(shí)時應(yīng)用場景(如體育賽事直播解說等)的推廣提供了更具性價(jià)比的解決方案。

相關(guān)鏈接

GitHub 倉庫地址:https://github.com/showlab/livecc 

Releases 頁面:https://github.com/showlab/livecc/releases 

項(xiàng)目主頁:https://showlab.github.io/livecc/ 

論文鏈接:https://arxiv.org/abs/2504.06885

在線演示:https://huggingface.co/spaces/chenjoya/LiveCC

收藏
最新工具
DrFonts
DrFonts

一個AI字體生成工具,它能把手寫的PNG圖片,比如紙上的字稿,自...

Coding Adventure
Coding Adventure

一個面向小學(xué)三年級到初中學(xué)生的游戲化編程學(xué)習(xí)平臺。學(xué)生用真實(shí)編程...

Vert.sh
Vert.sh

一款完全免費(fèi)、開源的文件轉(zhuǎn)換工具,支持圖片、音頻、文檔的本地處理...

Windrecorder
Windrecorder

捕風(fēng)記錄儀,一款開源的屏幕錄制與檢索工具,它記錄屏幕內(nèi)容來實(shí)現(xiàn)記...

Custom Cursor
Custom Cursor

一個能讓你擁有個性化光標(biāo)的網(wǎng)站。Custom Cursor網(wǎng)站有...

橙子8設(shè)計(jì)
橙子8設(shè)計(jì)

一站式AI電商圖片制作平臺,專為電商和跨境賣家服務(wù)。不用專業(yè)設(shè)計(jì)...

Sandspiel
Sandspiel

一款基于細(xì)胞自動機(jī)和實(shí)時物理的開源像素沙盤游戲,玩家可以在虛擬沙...

印象地圖
印象地圖

這是個可以幫你記住全國省市位置的測試工具。打開網(wǎng)站就能用,選個模...

Sandtris
Sandtris

一款把經(jīng)典俄羅斯方塊和流沙物理效果結(jié)合的休閑游戲。玩家需要利用沙...

Maze Toys
Maze Toys

一個以迷宮游戲?yàn)橹鞯木W(wǎng)站,提供多種類型的迷宮玩法,包括Mini、...

主站蜘蛛池模板: 囊谦县| 长泰县| 张家川| 磐石市| 水城县| 石城县| 晋中市| 郎溪县| 邵阳县| 商南县| 大化| 丰原市| 绥德县| 武清区| 蓬溪县| 泌阳县| 渑池县| 大港区| 公主岭市| 闸北区| 营山县| 荣成市| 庆安县| 井冈山市| 旬阳县| 长白| 永清县| 东光县| 泊头市| 房山区| 巩留县| 德阳市| 绥江县| 来安县| 远安县| 正安县| 衡阳市| 饶阳县| 三都| 钟山县| 滨州市|