HunyuanCustom:騰訊混元推出并開源的全新的多模態(tài)定制化視頻生成工具
HunyuanCustom是什么?
HunyuanCustom 是騰訊混元推出并開源的基于多模態(tài)驅(qū)動(dòng)的定制化視頻生成框架,可以生成具有特定主題的視頻,同時(shí)支持文本、圖像、音頻和視頻等多種輸入條件。
HunyuanCustom模型架構(gòu)
基于 HunyuanVideo:HunyuanCustom 是在 HunyuanVideo 的基礎(chǔ)上構(gòu)建的,專注于生成與特定主題一致的視頻。
多模態(tài)融合:引入了基于 LLaVA 的文本-圖像融合模塊,增強(qiáng)對(duì)多模態(tài)輸入的理解。此外,還設(shè)計(jì)了針對(duì)音頻和視頻的特定條件注入機(jī)制,以實(shí)現(xiàn)多模態(tài)條件下的視頻生成。
HunyuanCustom核心功能
多模態(tài)輸入生成視頻:融合了文本、圖像、音頻、視頻等多模態(tài)輸入生成視頻的能力,具備高度控制力和生成質(zhì)量。
單主體視頻生成:用戶只需上傳一張包含目標(biāo)人物或物體的圖片,并提供一句文本描述,就能識(shí)別出圖片中的身份信息,并在完全不同的動(dòng)作、服飾與場(chǎng)景中生成連貫自然的視頻內(nèi)容。例如上傳一張人物照片,輸入“他正在遛狗”,即可生成相應(yīng)視頻。
多主體視頻生成:用戶提供一張人物和一張物體的照片,并輸入文字描述,能讓這兩個(gè)主體按要求出現(xiàn)在視頻里。比如提供一張人物和一包薯片的照片,輸入“一名男子正在游泳池旁邊,手里拿著薯片進(jìn)行展示”,即可生成對(duì)應(yīng)視頻。
單主體視頻配音:在音頻驅(qū)動(dòng)(單主體)模式下,用戶可以上傳人物圖像并配上音頻語音,模型便可生成人物在任意場(chǎng)景中說話、唱歌或進(jìn)行其他音視頻同步表演的效果,廣泛適用于數(shù)字人直播、虛擬客服、教育演示等場(chǎng)景。
視頻局部編輯:在視頻驅(qū)動(dòng)模式下,支持將圖片中的人物或物體自然地替換或插入到任意視頻片段中,進(jìn)行創(chuàng)意植入或場(chǎng)景擴(kuò)展,輕松實(shí)現(xiàn)視頻重構(gòu)與內(nèi)容增強(qiáng)。
HunyuanCustom技術(shù)優(yōu)勢(shì)
身份一致性高:通過業(yè)內(nèi)領(lǐng)先的主體一致性建模能力,在單人、非人物體、多主體交互等多種場(chǎng)景,都能保持身份特征在視頻全程的一致性與連貫性,人物不會(huì)“變臉”,物體不會(huì)“漂移”。
可控性強(qiáng):具有較強(qiáng)的控制信號(hào)跟隨能力,包括遵循來自文本、參考主體圖像和語音等多種模態(tài)信號(hào)的控制,可較好地生成用戶需要對(duì)象、場(chǎng)景和動(dòng)作。
視頻生成質(zhì)量高:得益于騰訊混元視頻大模型的強(qiáng)大能力,在人物細(xì)節(jié)還原、動(dòng)作流暢性、光影真實(shí)度等方面都達(dá)到業(yè)內(nèi)領(lǐng)先水平。
HunyuanCustom應(yīng)用場(chǎng)景
廣告場(chǎng)景:可以快捷變換商品背景、模特可以快速換衣服。
電商和客服場(chǎng)景:可以快速低成本制作出生動(dòng)的數(shù)字人商品介紹視頻,或者制作特定穿著的數(shù)字人客服視頻。
影視場(chǎng)景:快速制作短劇和小故事短視頻。
教育科普?qǐng)鼍埃和ㄟ^音頻驅(qū)動(dòng)生成講解視頻。
HunyuanCustom單主體生成能力已經(jīng)開源并在混元官網(wǎng)上線,用戶可以在“模型廣場(chǎng) - 圖生視頻 - 參考生視頻”中體驗(yàn),其他能力已于5月內(nèi)陸續(xù)對(duì)外開源。你可以通過以下鏈接訪問相關(guān)信息:
體驗(yàn)入口:https://hunyuan.tencent.com/modelSquare/home/play?modelId=192
項(xiàng)目官網(wǎng):https://hunyuancustom.github.io/
代碼:https://github.com/Tencent/HunyuanCustom
技術(shù)報(bào)告:https://arxiv.org/pdf/2505.04512