SignLLM:第一個(gè)多語種手語生成模型
SignLLM,第一個(gè)多語種手語生成模型,可以將輸入的文本或提示轉(zhuǎn)化為相應(yīng)的手語手勢視頻。SignLLM通過先進(jìn)的ai技術(shù)生成和翻譯多種手語。SignLLM引入了首個(gè)多語言手語數(shù)據(jù)集,名為 Prompt2Sign,并基于此數(shù)據(jù)集開發(fā)了多種生成手語的模型。此數(shù)據(jù)集將大量視頻轉(zhuǎn)化為便于模型訓(xùn)練的格式,優(yōu)化了如 seq2seq 和 text2text 等翻譯模型的訓(xùn)練?;谶@些數(shù)據(jù)集,我們展示了 SignLLM 的基準(zhǔn)結(jié)果,表明我們的模型在八種手語的手語生成任務(wù)中達(dá)到了最先進(jìn)的性能。
SignLLM受到在廣泛的多語言文本語料庫上訓(xùn)練的大型語言模型 (LLMs) 強(qiáng)大翻譯能力的啟發(fā),我們的目標(biāo)是利用現(xiàn)成的 LLMs 來處理 SLT。在本文中,我們對(duì)手語視頻進(jìn)行規(guī)范化以體現(xiàn)口語的語言特征,并提出了一種新穎的 SignLLM 框架,將手語視頻轉(zhuǎn)換為類似語言的表示形式,以提高現(xiàn)成的 LLMs 的可讀性。
SignLLM 包含兩個(gè)關(guān)鍵模塊:
1、矢量量化視覺符號(hào)模塊將符號(hào)視頻轉(zhuǎn)換為一系列離散字符級(jí)符號(hào)標(biāo)記。
2、代碼本重建和對(duì)齊模塊將這些字符級(jí)標(biāo)記轉(zhuǎn)換為單詞級(jí)使用最佳傳輸公式進(jìn)行符號(hào)表示。符號(hào)-文本對(duì)齊損失進(jìn)一步彌合了符號(hào)和文本標(biāo)記之間的差距,增強(qiáng)了語義兼容性。我們?cè)趦蓚€(gè)廣泛使用的 SLT 基準(zhǔn)測試中取得了最先進(jìn)的無光澤結(jié)果。
SignLLM GITHUB地址:https://signllm.github.io/