HunyuanCustom:騰訊混元推出并開源的全新的多模態(tài)定制化視頻生成工具
HunyuanCustom是什么?
HunyuanCustom 是騰訊混元推出并開源的基于多模態(tài)驅(qū)動的定制化視頻生成框架,可以生成具有特定主題的視頻,同時支持文本、圖像、音頻和視頻等多種輸入條件。
HunyuanCustom模型架構(gòu)
基于 HunyuanVideo:HunyuanCustom 是在 HunyuanVideo 的基礎(chǔ)上構(gòu)建的,專注于生成與特定主題一致的視頻。
多模態(tài)融合:引入了基于 LLaVA 的文本-圖像融合模塊,增強對多模態(tài)輸入的理解。此外,還設(shè)計了針對音頻和視頻的特定條件注入機制,以實現(xiàn)多模態(tài)條件下的視頻生成。
HunyuanCustom核心功能
多模態(tài)輸入生成視頻:融合了文本、圖像、音頻、視頻等多模態(tài)輸入生成視頻的能力,具備高度控制力和生成質(zhì)量。
單主體視頻生成:用戶只需上傳一張包含目標(biāo)人物或物體的圖片,并提供一句文本描述,就能識別出圖片中的身份信息,并在完全不同的動作、服飾與場景中生成連貫自然的視頻內(nèi)容。例如上傳一張人物照片,輸入“他正在遛狗”,即可生成相應(yīng)視頻。
多主體視頻生成:用戶提供一張人物和一張物體的照片,并輸入文字描述,能讓這兩個主體按要求出現(xiàn)在視頻里。比如提供一張人物和一包薯片的照片,輸入“一名男子正在游泳池旁邊,手里拿著薯片進行展示”,即可生成對應(yīng)視頻。
單主體視頻配音:在音頻驅(qū)動(單主體)模式下,用戶可以上傳人物圖像并配上音頻語音,模型便可生成人物在任意場景中說話、唱歌或進行其他音視頻同步表演的效果,廣泛適用于數(shù)字人直播、虛擬客服、教育演示等場景。
視頻局部編輯:在視頻驅(qū)動模式下,支持將圖片中的人物或物體自然地替換或插入到任意視頻片段中,進行創(chuàng)意植入或場景擴展,輕松實現(xiàn)視頻重構(gòu)與內(nèi)容增強。
HunyuanCustom技術(shù)優(yōu)勢
身份一致性高:通過業(yè)內(nèi)領(lǐng)先的主體一致性建模能力,在單人、非人物體、多主體交互等多種場景,都能保持身份特征在視頻全程的一致性與連貫性,人物不會“變臉”,物體不會“漂移”。
可控性強:具有較強的控制信號跟隨能力,包括遵循來自文本、參考主體圖像和語音等多種模態(tài)信號的控制,可較好地生成用戶需要對象、場景和動作。
視頻生成質(zhì)量高:得益于騰訊混元視頻大模型的強大能力,在人物細節(jié)還原、動作流暢性、光影真實度等方面都達到業(yè)內(nèi)領(lǐng)先水平。
HunyuanCustom應(yīng)用場景
廣告場景:可以快捷變換商品背景、模特可以快速換衣服。
電商和客服場景:可以快速低成本制作出生動的數(shù)字人商品介紹視頻,或者制作特定穿著的數(shù)字人客服視頻。
影視場景:快速制作短劇和小故事短視頻。
教育科普場景:通過音頻驅(qū)動生成講解視頻。
HunyuanCustom單主體生成能力已經(jīng)開源并在混元官網(wǎng)上線,用戶可以在“模型廣場 - 圖生視頻 - 參考生視頻”中體驗,其他能力已于5月內(nèi)陸續(xù)對外開源。你可以通過以下鏈接訪問相關(guān)信息:
體驗入口:https://hunyuan.tencent.com/modelSquare/home/play?modelId=192
項目官網(wǎng):https://hunyuancustom.github.io/
代碼:https://github.com/Tencent/HunyuanCustom
技術(shù)報告:https://arxiv.org/pdf/2505.04512