我爱我色成人网,欧美日韩国产色,欧美亚视频在线中文字幕免费,亚洲国产影院

Ai應用
Ai資訊
AI生圖
AI生視頻
AI數字人系統

首頁 > Ai資訊 > Ai產品

MoshiVis：一款能聽還能看，并用流暢的語音跟你討論圖像內容的視覺語音模型

映技派于2025-03-26發布在Ai產品

MoshiVis是什么？

MoshiVis 是一個在Moshi基礎上開發的一款視覺語音模型，并保持了Moshi的低延遲和自然對話能力，能夠以自然對話風格討論圖像內容。支持多輪對話，可以描述圖片的文字內容并回答有關于圖片的問題。

它通過交叉注意力機制將視覺信息融入語音流，同時保持低延遲和低內存占用。MoshiVis 提供了多種后端支持（如 PyTorch、Rust、MLX），并發布了預訓練模型和合成視覺對話數據集，適用于實時語音交互場景。

MoshiVis：一款能聽還能看，并用流暢的語音跟你討論圖像內容的視覺語音模型.jpg

MoshiVis核心功能

視覺與語音結合：MoshiVis 在 Moshi 的基礎上增加了視覺理解能力，能夠將圖像信息融入語音對話中。通過擴展核心 Transformer 架構，引入交叉注意力機制，將視覺信息注入語音流中。
低延遲與低內存占用：為了保持低延遲并減少內存使用，MoshiVis 的交叉注意力投影權重在各層之間共享，并通過門控機制調節視覺輸入流。
自然對話風格：模型在融入視覺能力的同時，保留了 Moshi 原有的自然對話風格。

MoshiVis技術架構

基礎模型：基于 Moshi，一個 7B 參數的語音-文本基礎模型。
視覺編碼器：使用 PaliGemma2 家族的預訓練凍結 400M 視覺編碼器。
適配器參數：在 Moshi 基礎上增加了約 206M 的適配器參數，用于視覺信息的處理。
交叉注意力機制：通過交叉注意力模塊將視覺信息注入語音流，同時通過門控機制調節視覺輸入的影響。

MoshiVis技術架構.webp

MoshiVis模型發布

模型變體：發布了基于 Moshika（女聲）的 MoshiVis 模型，包含完整的模型權重，包括語音編解碼器、文本分詞器、圖像編碼器和基礎 Moshi 模型。
后端支持：提供了三種后端支持，包括 PyTorch、Rust 和 MLX，支持不同的量化格式（如 BF16、Q8_0 等）。
許可證：模型權重（不包括視覺編碼器）在 CC-BY 4.0 許可下發布，視覺編碼器在 Gemma 許可下發布。

MoshiVis使用方式

WebUI 前端：提供了 WebUI 前端，支持回聲消除，提升模型表現。用戶可以通過預構建的靜態版本或自行編譯源代碼來使用。
后端運行：

PyTorch：需要約 24GB GPU 內存，不支持量化。
Rust：支持 GPU 加速，需要 Rust 工具鏈和 CUDA（或 macOS 上的 Metal）。
MLX：支持 bfloat16 和量化（q4、q8）格式。
運行命令：提供了詳細的運行命令，用戶可以根據需要選擇不同的后端和量化格式。

相關鏈接：

GitHub項目：https://github.com/kyutai-labs/moshivis

HuggingFace模型：https://huggingface.co/collections/kyutai/moshivis-v01-67cef4acae6a5d75d6d6c883

演示：https://vis.moshi.chat/

論文：https://arxiv.org/abs/2503.15633

收藏

Qwen2.5-Omni：阿里巴巴發布的端到端全能多模態旗艦模型

上一篇

Qwen2.5-Omni：阿里巴巴發布的端到端全能多模態旗艦模型

BrowserAgent：一款基于瀏覽器的AI自動化工具，無需編寫代碼即可創建AI工作流。

下一篇

BrowserAgent：一款基于瀏覽器的AI自動化工具，無需編寫代碼即可創建AI工作流。

相關文章

最新文章

最新工具

unDraw

美國設計師Katerina Limpitsouni創作的開源插畫...

Storyset

一個由知名素材平臺Freepik公司旗下的免費在線自定義矢量插畫...

Jigsaw Planet

一個數百萬免費在線拼圖平臺，用戶能直接通過瀏覽器創建、游玩和分享...

GeoFS

一款免費的網頁版多人飛行模擬器網站，只要瀏覽器就可以運行，不需要...

Avido AI

通過 AI 技術幫用戶生成適合 YouTube 和 TikTok...

表答AI

一款能抓取網頁內容并能情感分析的數據分析產品，并把采集分析過程自...

Recaster AI

通過導入產品圖像或數據，生成定制的SEO內容，支持從Shopif...

ScanPDF

一個能夠讓PDF看起來就像是掃描件一樣的在線免費工具。只需點擊鼠...

SkylineWebCams

在美洲、歐洲、亞洲、非洲及大洋洲59個國家，提供全球五大洲實時高...

Ezgif

一個簡單、免費的在線 GIF 制作工具和基礎動畫圖像編輯工具集，...

人生若只如初見

用戶登錄

主站蜘蛛池模板：屯门区| 晋江市| 富裕县| 广饶县| 镇安县| 宜昌市| 万安县| 长兴县| 贡觉县| 天全县| 乌恰县| 白银市| 满城县| 康乐县| 新河县| 玉林市| 湖南省| 黎平县| 咸宁市| 饶阳县| 婺源县| 台北市| 乐山市| 墨脱县| 新邵县| 会昌县| 华容县| 靖安县| 平乡县| 桂平市| 巨野县| 莱芜市| 博客| 富锦市| 琼中| 资阳市| 法库县| 麦盖提县| 桦南县| 罗江县| 绥棱县|