我爱我色成人网,欧美日韩国产色,欧美亚视频在线中文字幕免费,亚洲国产影院

MoshiVis:一款能聽還能看,并用流暢的語音跟你討論圖像內容的視覺語音模型

MoshiVis是什么?

MoshiVis 是一個在Moshi基礎上開發的一款視覺語音模型,并保持了Moshi的低延遲和自然對話能力,能夠以自然對話風格討論圖像內容。支持多輪對話,可以描述圖片的文字內容并回答有關于圖片的問題。

它通過交叉注意力機制將視覺信息融入語音流,同時保持低延遲和低內存占用。MoshiVis 提供了多種后端支持(如 PyTorch、Rust、MLX),并發布了預訓練模型和合成視覺對話數據集,適用于實時語音交互場景。

MoshiVis:一款能聽還能看,并用流暢的語音跟你討論圖像內容的視覺語音模型.jpg


MoshiVis核心功能

  • 視覺與語音結合:MoshiVis 在 Moshi 的基礎上增加了視覺理解能力,能夠將圖像信息融入語音對話中。通過擴展核心 Transformer 架構,引入交叉注意力機制,將視覺信息注入語音流中。

  • 低延遲與低內存占用:為了保持低延遲并減少內存使用,MoshiVis 的交叉注意力投影權重在各層之間共享,并通過門控機制調節視覺輸入流。

  • 自然對話風格:模型在融入視覺能力的同時,保留了 Moshi 原有的自然對話風格。

MoshiVis技術架構

  • 基礎模型:基于 Moshi,一個 7B 參數的語音-文本基礎模型。

  • 視覺編碼器:使用 PaliGemma2 家族的預訓練凍結 400M 視覺編碼器。

  • 適配器參數:在 Moshi 基礎上增加了約 206M 的適配器參數,用于視覺信息的處理。

  • 交叉注意力機制:通過交叉注意力模塊將視覺信息注入語音流,同時通過門控機制調節視覺輸入的影響。

MoshiVis技術架構.webp

MoshiVis模型發布

  • 模型變體:發布了基于 Moshika(女聲)的 MoshiVis 模型,包含完整的模型權重,包括語音編解碼器、文本分詞器、圖像編碼器和基礎 Moshi 模型。

  • 后端支持:提供了三種后端支持,包括 PyTorch、Rust 和 MLX,支持不同的量化格式(如 BF16、Q8_0 等)。

  • 許可證:模型權重(不包括視覺編碼器)在 CC-BY 4.0 許可下發布,視覺編碼器在 Gemma 許可下發布。

MoshiVis使用方式

  • WebUI 前端:提供了 WebUI 前端,支持回聲消除,提升模型表現。用戶可以通過預構建的靜態版本或自行編譯源代碼來使用。

  • 后端運行:

  • PyTorch:需要約 24GB GPU 內存,不支持量化。

  • Rust:支持 GPU 加速,需要 Rust 工具鏈和 CUDA(或 macOS 上的 Metal)。

  • MLX:支持 bfloat16 和量化(q4、q8)格式。

  • 運行命令:提供了詳細的運行命令,用戶可以根據需要選擇不同的后端和量化格式。

相關鏈接:

GitHub項目:https://github.com/kyutai-labs/moshivis

HuggingFace模型:https://huggingface.co/collections/kyutai/moshivis-v01-67cef4acae6a5d75d6d6c883

演示:https://vis.moshi.chat/

論文:https://arxiv.org/abs/2503.15633

收藏

相關文章

最新工具
unDraw
unDraw

美國設計師Katerina Limpitsouni創作的開源插畫...

Storyset
Storyset

一個由知名素材平臺Freepik公司旗下的免費在線自定義矢量插畫...

Jigsaw Planet
Jigsaw Planet

一個數百萬免費在線拼圖平臺,用戶能直接通過瀏覽器創建、游玩和分享...

GeoFS
GeoFS

一款免費的網頁版多人飛行模擬器網站,只要瀏覽器就可以運行,不需要...

Avido AI
Avido AI

通過 AI 技術幫用戶生成適合 YouTube 和 TikTok...

表答AI
表答AI

一款能抓取網頁內容并能情感分析的數據分析產品,并把采集分析過程自...

Recaster AI
Recaster AI

通過導入產品圖像或數據,生成定制的SEO內容,支持從Shopif...

ScanPDF
ScanPDF

一個能夠讓PDF看起來就像是掃描件一樣的在線免費工具。只需點擊鼠...

SkylineWebCams
SkylineWebCams

在美洲、歐洲、亞洲、非洲及大洋洲59個國家,提供全球五大洲實時高...

Ezgif
Ezgif

一個簡單、免費的在線 GIF 制作工具和基礎動畫圖像編輯工具集,...

主站蜘蛛池模板: 屯门区| 晋江市| 富裕县| 广饶县| 镇安县| 宜昌市| 万安县| 长兴县| 贡觉县| 天全县| 乌恰县| 白银市| 满城县| 康乐县| 新河县| 玉林市| 湖南省| 黎平县| 咸宁市| 饶阳县| 婺源县| 台北市| 乐山市| 墨脱县| 新邵县| 会昌县| 华容县| 靖安县| 平乡县| 桂平市| 巨野县| 莱芜市| 博客| 富锦市| 琼中| 资阳市| 法库县| 麦盖提县| 桦南县| 罗江县| 绥棱县|