UniTok:字節(jié)開源的一個(gè)同時(shí)用于生成和理解任務(wù)的視覺分詞器
UniTok是什么?
UniTok 是字節(jié)開源的一個(gè)同時(shí)用于生成和理解任務(wù)的視覺分詞器,能夠高效地將視覺信息轉(zhuǎn)化為 token,適用于多種自回歸生成模型和多模態(tài)理解模型。它通過創(chuàng)新的視覺分詞技術(shù),能夠以極低的 token 數(shù)量(如 256 個(gè) token)實(shí)現(xiàn)高質(zhì)量的視覺內(nèi)容生成,例如圖像和視頻的重建。
UniTok 的核心功能
高效視覺編碼:UniTok 能夠?qū)?fù)雜的視覺信息(如圖像和視頻)分解為離散的 token,便于模型處理。
多模態(tài)支持:它不僅適用于圖像,還能處理視頻內(nèi)容,支持連續(xù)和離散分詞化。
低資源需求:UniTok 在低 token 數(shù)量下仍能保持高重建質(zhì)量,例如在 256 個(gè) token 下的重建誤差僅為 0.39。
靈活的壓縮率:用戶可以根據(jù)需求調(diào)整 token 數(shù)量,以平衡生成質(zhì)量和計(jì)算效率。
UniTok應(yīng)用領(lǐng)域
視覺生成任務(wù):如圖像和視頻重建、語言模型驅(qū)動的視覺合成。
多模態(tài)理解:結(jié)合文本和視覺信息,實(shí)現(xiàn)更高效的多模態(tài)模型訓(xùn)練。
擴(kuò)散模型:與 DiT 和 Latte 等擴(kuò)散模型結(jié)合,生成高質(zhì)量的視覺內(nèi)容。
UniTok技術(shù)實(shí)現(xiàn)
UniTok 基于 VQVAE(變分量子化自編碼器)和 VAE(變分自編碼器)技術(shù),通過兩階段訓(xùn)練實(shí)現(xiàn)高效的視覺編碼。其訓(xùn)練過程包括:
圖像單一分辨率訓(xùn)練:在固定分辨率上進(jìn)行圖像訓(xùn)練。
圖像-視頻聯(lián)合多分辨率訓(xùn)練:在多個(gè)分辨率上進(jìn)行圖像和視頻的聯(lián)合訓(xùn)練。
VAE 微調(diào):通過 KL 損失對 VQVAE 模型進(jìn)行微調(diào),得到 VAE 模型。
UniTok優(yōu)勢
單一模型和權(quán)重:UniTok 通過單一模型和權(quán)重處理圖像和視頻分詞,簡化了模型管理和部署。
高適應(yīng)性:支持高分辨率和長視頻輸入,適應(yīng)多種應(yīng)用場景。
兼容性強(qiáng):與語言模型和擴(kuò)散模型兼容,實(shí)現(xiàn)多樣化的視覺生成。
UniTok 通過多碼本量化技術(shù),解決了傳統(tǒng)分詞器在生成和理解任務(wù)中的瓶頸,為多模態(tài)大語言模型(MLLMs)提供了一個(gè)更高效的解決方案。
項(xiàng)目地址:https://foundationvision.github.io/UniTok/
GitHub倉庫:https://github.com/FoundationVision/UniTok