我爱我色成人网,欧美日韩国产色,欧美亚视频在线中文字幕免费,亚洲国产影院

MoshiVis:一款能聽(tīng)還能看,并用流暢的語(yǔ)音跟你討論圖像內(nèi)容的視覺(jué)語(yǔ)音模型

MoshiVis是什么?

MoshiVis 是一個(gè)在Moshi基礎(chǔ)上開(kāi)發(fā)的一款視覺(jué)語(yǔ)音模型,并保持了Moshi的低延遲和自然對(duì)話(huà)能力,能夠以自然對(duì)話(huà)風(fēng)格討論圖像內(nèi)容。支持多輪對(duì)話(huà),可以描述圖片的文字內(nèi)容并回答有關(guān)于圖片的問(wèn)題。

它通過(guò)交叉注意力機(jī)制將視覺(jué)信息融入語(yǔ)音流,同時(shí)保持低延遲和低內(nèi)存占用。MoshiVis 提供了多種后端支持(如 PyTorch、Rust、MLX),并發(fā)布了預(yù)訓(xùn)練模型和合成視覺(jué)對(duì)話(huà)數(shù)據(jù)集,適用于實(shí)時(shí)語(yǔ)音交互場(chǎng)景。

MoshiVis:一款能聽(tīng)還能看,并用流暢的語(yǔ)音跟你討論圖像內(nèi)容的視覺(jué)語(yǔ)音模型.jpg


MoshiVis核心功能

  • 視覺(jué)與語(yǔ)音結(jié)合:MoshiVis 在 Moshi 的基礎(chǔ)上增加了視覺(jué)理解能力,能夠?qū)D像信息融入語(yǔ)音對(duì)話(huà)中。通過(guò)擴(kuò)展核心 Transformer 架構(gòu),引入交叉注意力機(jī)制,將視覺(jué)信息注入語(yǔ)音流中。

  • 低延遲與低內(nèi)存占用:為了保持低延遲并減少內(nèi)存使用,MoshiVis 的交叉注意力投影權(quán)重在各層之間共享,并通過(guò)門(mén)控機(jī)制調(diào)節(jié)視覺(jué)輸入流。

  • 自然對(duì)話(huà)風(fēng)格:模型在融入視覺(jué)能力的同時(shí),保留了 Moshi 原有的自然對(duì)話(huà)風(fēng)格。

MoshiVis技術(shù)架構(gòu)

  • 基礎(chǔ)模型:基于 Moshi,一個(gè) 7B 參數(shù)的語(yǔ)音-文本基礎(chǔ)模型。

  • 視覺(jué)編碼器:使用 PaliGemma2 家族的預(yù)訓(xùn)練凍結(jié) 400M 視覺(jué)編碼器。

  • 適配器參數(shù):在 Moshi 基礎(chǔ)上增加了約 206M 的適配器參數(shù),用于視覺(jué)信息的處理。

  • 交叉注意力機(jī)制:通過(guò)交叉注意力模塊將視覺(jué)信息注入語(yǔ)音流,同時(shí)通過(guò)門(mén)控機(jī)制調(diào)節(jié)視覺(jué)輸入的影響。

MoshiVis技術(shù)架構(gòu).webp

MoshiVis模型發(fā)布

  • 模型變體:發(fā)布了基于 Moshika(女聲)的 MoshiVis 模型,包含完整的模型權(quán)重,包括語(yǔ)音編解碼器、文本分詞器、圖像編碼器和基礎(chǔ) Moshi 模型。

  • 后端支持:提供了三種后端支持,包括 PyTorch、Rust 和 MLX,支持不同的量化格式(如 BF16、Q8_0 等)。

  • 許可證:模型權(quán)重(不包括視覺(jué)編碼器)在 CC-BY 4.0 許可下發(fā)布,視覺(jué)編碼器在 Gemma 許可下發(fā)布。

MoshiVis使用方式

  • WebUI 前端:提供了 WebUI 前端,支持回聲消除,提升模型表現(xiàn)。用戶(hù)可以通過(guò)預(yù)構(gòu)建的靜態(tài)版本或自行編譯源代碼來(lái)使用。

  • 后端運(yùn)行:

  • PyTorch:需要約 24GB GPU 內(nèi)存,不支持量化。

  • Rust:支持 GPU 加速,需要 Rust 工具鏈和 CUDA(或 macOS 上的 Metal)。

  • MLX:支持 bfloat16 和量化(q4、q8)格式。

  • 運(yùn)行命令:提供了詳細(xì)的運(yùn)行命令,用戶(hù)可以根據(jù)需要選擇不同的后端和量化格式。

相關(guān)鏈接:

GitHub項(xiàng)目:https://github.com/kyutai-labs/moshivis

HuggingFace模型:https://huggingface.co/collections/kyutai/moshivis-v01-67cef4acae6a5d75d6d6c883

演示:https://vis.moshi.chat/

論文:https://arxiv.org/abs/2503.15633

收藏
最新工具
Quick Prompt
Quick Prompt

一個(gè)專(zhuān)注于提示詞(Prompt)的管理和快速輸入的瀏覽器擴(kuò)展插件...

FoldNFly
FoldNFly

一個(gè)專(zhuān)注于紙飛機(jī)折疊教程的網(wǎng)站,提供豐富的紙飛機(jī)設(shè)計(jì)資源、制作指...

VoiceCanvas
VoiceCanvas

一款文本轉(zhuǎn)語(yǔ)音工具,支持 50 多種語(yǔ)言,具備語(yǔ)音克隆功能,僅需...

Loud Fame
Loud Fame

一款A(yù)I視頻生成和編輯工具,能夠?qū)⑵胀ㄒ曨l轉(zhuǎn)換為具有動(dòng)漫風(fēng)格的視...

PPT世界
PPT世界

QIJ鰭跡旗下產(chǎn)品,集PPT模板下載、設(shè)計(jì)教程、交流社區(qū)和定制服...

職達(dá)AI簡(jiǎn)歷
職達(dá)AI簡(jiǎn)歷

一個(gè)專(zhuān)業(yè)的 AI 簡(jiǎn)歷優(yōu)化平臺(tái),提供簡(jiǎn)歷&求職一站式服務(wù)...

喵記多APP
喵記多APP

快手推出的邊聊天邊記錄的AI筆記,主要功能包括管理筆記,如剪藏、...

暢圖
暢圖

一款由摹客推出的AI原生可視化工具,專(zhuān)為個(gè)人和團(tuán)隊(duì)的創(chuàng)意表達(dá)、知...

Ztalk ai
Ztalk ai

一個(gè)AI驅(qū)動(dòng)的會(huì)議實(shí)時(shí)語(yǔ)音翻譯平臺(tái),可以與 Zoom、Googl...

Supercut
Supercut

一款屏幕錄制工具,能幫你快速錄下屏幕上的內(nèi)容,錄制的視頻可以自動(dòng)...

主站蜘蛛池模板: 清丰县| 雷州市| 昭通市| 新乐市| 襄城县| 泗洪县| 和政县| 英超| 邯郸市| 临泽县| 固原市| 高要市| 同德县| 姜堰市| 改则县| 肃南| 浠水县| 黄冈市| 错那县| 库尔勒市| 安新县| 西乌珠穆沁旗| 新丰县| 潮州市| 江口县| 叙永县| 始兴县| 和龙市| 永安市| 股票| 甘孜县| 怀宁县| 阿坝| 溆浦县| 大兴区| 澄迈县| 景泰县| 宁津县| 聂拉木县| 哈尔滨市| 屯昌县|