MoshiVis:一款能聽(tīng)還能看,并用流暢的語(yǔ)音跟你討論圖像內(nèi)容的視覺(jué)語(yǔ)音模型
MoshiVis是什么?
MoshiVis 是一個(gè)在Moshi基礎(chǔ)上開(kāi)發(fā)的一款視覺(jué)語(yǔ)音模型,并保持了Moshi的低延遲和自然對(duì)話(huà)能力,能夠以自然對(duì)話(huà)風(fēng)格討論圖像內(nèi)容。支持多輪對(duì)話(huà),可以描述圖片的文字內(nèi)容并回答有關(guān)于圖片的問(wèn)題。
它通過(guò)交叉注意力機(jī)制將視覺(jué)信息融入語(yǔ)音流,同時(shí)保持低延遲和低內(nèi)存占用。MoshiVis 提供了多種后端支持(如 PyTorch、Rust、MLX),并發(fā)布了預(yù)訓(xùn)練模型和合成視覺(jué)對(duì)話(huà)數(shù)據(jù)集,適用于實(shí)時(shí)語(yǔ)音交互場(chǎng)景。
MoshiVis核心功能
視覺(jué)與語(yǔ)音結(jié)合:MoshiVis 在 Moshi 的基礎(chǔ)上增加了視覺(jué)理解能力,能夠?qū)D像信息融入語(yǔ)音對(duì)話(huà)中。通過(guò)擴(kuò)展核心 Transformer 架構(gòu),引入交叉注意力機(jī)制,將視覺(jué)信息注入語(yǔ)音流中。
低延遲與低內(nèi)存占用:為了保持低延遲并減少內(nèi)存使用,MoshiVis 的交叉注意力投影權(quán)重在各層之間共享,并通過(guò)門(mén)控機(jī)制調(diào)節(jié)視覺(jué)輸入流。
自然對(duì)話(huà)風(fēng)格:模型在融入視覺(jué)能力的同時(shí),保留了 Moshi 原有的自然對(duì)話(huà)風(fēng)格。
MoshiVis技術(shù)架構(gòu)
基礎(chǔ)模型:基于 Moshi,一個(gè) 7B 參數(shù)的語(yǔ)音-文本基礎(chǔ)模型。
視覺(jué)編碼器:使用 PaliGemma2 家族的預(yù)訓(xùn)練凍結(jié) 400M 視覺(jué)編碼器。
適配器參數(shù):在 Moshi 基礎(chǔ)上增加了約 206M 的適配器參數(shù),用于視覺(jué)信息的處理。
交叉注意力機(jī)制:通過(guò)交叉注意力模塊將視覺(jué)信息注入語(yǔ)音流,同時(shí)通過(guò)門(mén)控機(jī)制調(diào)節(jié)視覺(jué)輸入的影響。
MoshiVis模型發(fā)布
模型變體:發(fā)布了基于 Moshika(女聲)的 MoshiVis 模型,包含完整的模型權(quán)重,包括語(yǔ)音編解碼器、文本分詞器、圖像編碼器和基礎(chǔ) Moshi 模型。
后端支持:提供了三種后端支持,包括 PyTorch、Rust 和 MLX,支持不同的量化格式(如 BF16、Q8_0 等)。
許可證:模型權(quán)重(不包括視覺(jué)編碼器)在 CC-BY 4.0 許可下發(fā)布,視覺(jué)編碼器在 Gemma 許可下發(fā)布。
MoshiVis使用方式
WebUI 前端:提供了 WebUI 前端,支持回聲消除,提升模型表現(xiàn)。用戶(hù)可以通過(guò)預(yù)構(gòu)建的靜態(tài)版本或自行編譯源代碼來(lái)使用。
后端運(yùn)行:
PyTorch:需要約 24GB GPU 內(nèi)存,不支持量化。
Rust:支持 GPU 加速,需要 Rust 工具鏈和 CUDA(或 macOS 上的 Metal)。
MLX:支持 bfloat16 和量化(q4、q8)格式。
運(yùn)行命令:提供了詳細(xì)的運(yùn)行命令,用戶(hù)可以根據(jù)需要選擇不同的后端和量化格式。
相關(guān)鏈接:
GitHub項(xiàng)目:https://github.com/kyutai-labs/moshivis
HuggingFace模型:https://huggingface.co/collections/kyutai/moshivis-v01-67cef4acae6a5d75d6d6c883