Ai應用
Ai資訊
AI生圖
AI生視頻
AI生PPT
AI數字人系統

我爱我色成人网,欧美日韩国产色,欧美亚视频在线中文字幕免费,亚洲国产影院

Ai應用
Ai資訊
AI生圖
AI生視頻
AI生PPT
AI數字人系統

首頁 > Ai資訊 > Ai產品

LiveCC：字節跳動和新加坡國立大學合作開發的能實時解說的視頻大語言模型

映技派于2025-04-25發布在Ai產品 2421

LiveCC是什么？

LiveCC是字節跳動和新加坡國立大學合作開發的視頻大語言模型，能實時解說視頻內容。它用自動語音識別（ASR）轉錄本訓練，成本低，效率高。研究人員還開發了新的流訓練方法和數據生產管道，構建了Live-CC-5M和Live-WhisperX-526K兩個數據集。即使沒有經過高質量監督微調，LiveCC-7B-Base模型在視頻問答和實時解說上表現也很出色。經過LiveSports-3K基準測試評估，最終的LiveCC-7B-Instruct模型在實時解說質量上超過了72B的先進模型，在VideoMME和OVOBench等視頻問答基準測試中也取得了頂尖成績。

LiveCC核心特點

模型訓練方法

創新訓練方式：提出一種新穎的視頻 - ASR 流訓練方法，根據時間戳將 ASR 單詞和視頻幀緊密交織，符合 ASR 的流特性，使模型能學習時間對齊、細粒度的視覺語言建模。
數據生產與數據集構建：引入數據生產管道處理 YouTube 視頻及其字幕（CC，等同于 ASR），構建了用于預訓練的Live-CC-5M數據集和用于高質量監督微調（SFT）的Live-WhisperX-526K數據集。

模型訓練方法.webp

模型性能

LiveCC-7B-Base 模型：即便未進行 SFT，該模型在通用視頻問答任務中就展現出有競爭力的性能，還具備實時視頻解說的新能力。
LiveCC-7B-Instruct 模型：通過精心設計的LiveSports-3K基準測試（使用 LLM 作為評判標準衡量自由形式解說）評估，該模型在實時模式下的解說質量超越先進的 72B 模型（如 Qwen2.5-VL-72B-Instruct、LLaVA-Video-72B）。在流行的視頻問答基準測試（如 VideoMME 和 OVOBench）中，在 7B/8B 規模上取得了最先進的成果，證明了方法的廣泛通用性。

LiveCC應用.webp

LiveCC應用

LiveCC 可以廣泛應用于視頻內容的實時解讀、體育賽事的實時評論、教育視頻的互動講解等領域。

常見問題

問：LiveCC 與其他視頻大語言模型在訓練數據獲取上有什么不同？

答：LiveCC 利用廉價的自動語音識別（ASR）轉錄本進行大規模訓練，而其他模型常依賴昂貴的人工注釋或專有模型 API（如 GPT-4o），這種差異使LiveCC 在訓練數據的成本和規模上更加有優勢。

問：Live-CC-5M 和 Live-WhisperX-526K 數據集分別有什么作用？

答：Live-CC-5M 數據集用于模型的預訓練，幫助模型學習通用的視覺語言特征和知識；Live-WhisperX-526K 數據集用于高質量監督微調（SFT），使模型在特定任務上表現更好，提升模型的性能。

問：LiveCC-7B-Instruct 模型在實時解說方面超越 72B 模型有什么意義？

答：表明 LiveCC 的訓練方法和模型架構有效，能夠在較低參數量下實現更高效的實時解說功能，這為視頻大語言模型在實時應用場景（如體育賽事直播解說等）的推廣提供了更具性價比的解決方案。

相關鏈接

GitHub 倉庫地址：https://github.com/showlab/livecc

Releases 頁面：https://github.com/showlab/livecc/releases

項目主頁：https://showlab.github.io/livecc/

論文鏈接：https://arxiv.org/abs/2504.06885

在線演示：https://huggingface.co/spaces/chenjoya/LiveCC

收藏

Markdown-Docx：可將Markdown文件轉換為DOCX格式并下載

上一篇

Markdown-Docx：可將Markdown文件轉換為DOCX格式并下載

short-video-maker：一個開源的自動化短視頻創作工具

下一篇

short-video-maker：一個開源的自動化短視頻創作工具

相關文章

DeerFlow：基于LangChain和LangG

DeerFlow：基于LangChain和LangG

2025-05-10

FlowGram.AI：字節跳動開發的一款開源的基于

FlowGram.AI：字節跳動開發的一款開源的基于

2025-05-10

Seedream 3.0：字節跳動推出的高性能中英雙

Seedream 3.0：字節跳動推出的高性能中英雙

2025-04-17

UNO：字節跳動開發的一個多主體條件圖像生成模型

UNO：字節跳動開發的一個多主體條件圖像生成模型

2025-04-09

DreamActor-M1：字節跳動推出的一張人物照

DreamActor-M1：字節跳動推出的一張人物照

2025-04-04

MegaTTS 3：字節跳動推出的一款零樣本文本到語

MegaTTS 3：字節跳動推出的一款零樣本文本到語

2025-03-29

最新文章

最新工具

天工超級智能體

運用AI agent架構和深度研究技術，能一站式生成文檔、PPT...

Aiease AI

成都億樂科技開發的，一款基于AI的免費在線照片編輯工具。它不需...

Gloda

一家專注于 TikTok 數據分析的服務商，提供智能選品工具，涵...

Addsubtitle AI

一款在線視頻編輯工具，具備視頻翻譯（涵蓋100多種語言）、添加多...

TeraBox

一款云存儲服務，能提供最多1TB的免費云存儲及在線文件傳輸功能，...

Dewatermark.AI

一款免費在線去水印工具。通過AI快速消除圖片水印。Dewater...

嘎嘎降AI

指的是軟件名 AIGCleaner，可以降低 AI 生成內容檢測...

Vidgo AI

一個多合一AI圖像、音樂和視頻生成器，能將文字、圖片等素材變成圖...

Vinteo AI

一款AI電商產品攝影和可視化產品設計工具，可幫助零售商、制造商等...

PassiveWP

一款 WordPress 聯盟營銷插件，讓產品研究、推廣和跟蹤，...

人生若只如初見

用戶登錄

主站蜘蛛池模板：杭州市| 宽城| 文成县| 徐闻县| 崇州市| 沁阳市| 虞城县| 饶阳县| 上高县| 临桂县| 田东县| 长海县| 永寿县| 绵阳市| 斗六市| 文登市| 武乡县| 黑水县| 海南省| 宣城市| 上犹县| 商丘市| 黔江区| 琼中| 常山县| 施甸县| 蓬莱市| 宽城| 马关县| 泉州市| 西丰县| 建昌县| 临西县| 六盘水市| 宝鸡市| 如东县| 来凤县| 苍南县| 绩溪县| 肃宁县| 北辰区|