我爱我色成人网,欧美日韩国产色,欧美亚视频在线中文字幕免费,亚洲国产影院

MoshiVis:一款能聽還能看,并用流暢的語音跟你討論圖像內容的視覺語音模型

MoshiVis是什么?

MoshiVis 是一個在Moshi基礎上開發的一款視覺語音模型,并保持了Moshi的低延遲和自然對話能力,能夠以自然對話風格討論圖像內容。支持多輪對話,可以描述圖片的文字內容并回答有關于圖片的問題。

它通過交叉注意力機制將視覺信息融入語音流,同時保持低延遲和低內存占用。MoshiVis 提供了多種后端支持(如 PyTorch、Rust、MLX),并發布了預訓練模型和合成視覺對話數據集,適用于實時語音交互場景。

MoshiVis:一款能聽還能看,并用流暢的語音跟你討論圖像內容的視覺語音模型.jpg


MoshiVis核心功能

  • 視覺與語音結合:MoshiVis 在 Moshi 的基礎上增加了視覺理解能力,能夠將圖像信息融入語音對話中。通過擴展核心 Transformer 架構,引入交叉注意力機制,將視覺信息注入語音流中。

  • 低延遲與低內存占用:為了保持低延遲并減少內存使用,MoshiVis 的交叉注意力投影權重在各層之間共享,并通過門控機制調節視覺輸入流。

  • 自然對話風格:模型在融入視覺能力的同時,保留了 Moshi 原有的自然對話風格。

MoshiVis技術架構

  • 基礎模型:基于 Moshi,一個 7B 參數的語音-文本基礎模型。

  • 視覺編碼器:使用 PaliGemma2 家族的預訓練凍結 400M 視覺編碼器。

  • 適配器參數:在 Moshi 基礎上增加了約 206M 的適配器參數,用于視覺信息的處理。

  • 交叉注意力機制:通過交叉注意力模塊將視覺信息注入語音流,同時通過門控機制調節視覺輸入的影響。

MoshiVis技術架構.webp

MoshiVis模型發布

  • 模型變體:發布了基于 Moshika(女聲)的 MoshiVis 模型,包含完整的模型權重,包括語音編解碼器、文本分詞器、圖像編碼器和基礎 Moshi 模型。

  • 后端支持:提供了三種后端支持,包括 PyTorch、Rust 和 MLX,支持不同的量化格式(如 BF16、Q8_0 等)。

  • 許可證:模型權重(不包括視覺編碼器)在 CC-BY 4.0 許可下發布,視覺編碼器在 Gemma 許可下發布。

MoshiVis使用方式

  • WebUI 前端:提供了 WebUI 前端,支持回聲消除,提升模型表現。用戶可以通過預構建的靜態版本或自行編譯源代碼來使用。

  • 后端運行:

  • PyTorch:需要約 24GB GPU 內存,不支持量化。

  • Rust:支持 GPU 加速,需要 Rust 工具鏈和 CUDA(或 macOS 上的 Metal)。

  • MLX:支持 bfloat16 和量化(q4、q8)格式。

  • 運行命令:提供了詳細的運行命令,用戶可以根據需要選擇不同的后端和量化格式。

相關鏈接:

GitHub項目:https://github.com/kyutai-labs/moshivis

HuggingFace模型:https://huggingface.co/collections/kyutai/moshivis-v01-67cef4acae6a5d75d6d6c883

演示:https://vis.moshi.chat/

論文:https://arxiv.org/abs/2503.15633

收藏

相關文章

最新工具
Custom Cursor
Custom Cursor

一個能讓你擁有個性化光標的網站。Custom Cursor網站有...

橙子8設計
橙子8設計

一站式AI電商圖片制作平臺,專為電商和跨境賣家服務。不用專業設計...

Sandspiel
Sandspiel

一款基于細胞自動機和實時物理的開源像素沙盤游戲,玩家可以在虛擬沙...

印象地圖
印象地圖

這是個可以幫你記住全國省市位置的測試工具。打開網站就能用,選個模...

Sandtris
Sandtris

一款把經典俄羅斯方塊和流沙物理效果結合的休閑游戲。玩家需要利用沙...

Maze Toys
Maze Toys

一個以迷宮游戲為主的網站,提供多種類型的迷宮玩法,包括Mini、...

AiPyApp
AiPyApp

一款以Python為核心的開源新人工智能體助手,結合大模型和 P...

Adobe Express
Adobe Express

Adobe推出的一站式設計工具,整合了圖像、視頻、文檔/PDF、...

Intangible AI
Intangible AI

創意行業空間智能AI平臺,通過簡潔的3D界面與空間智能技術解決A...

法大大iTerms
法大大iTerms

法大大推出的一站式法律AI工作臺,基于自研法律大模型的AI智能體...

主站蜘蛛池模板: 循化| 东海县| 蒙城县| 南投县| 金寨县| 浏阳市| 台安县| 游戏| 深圳市| 车致| 独山县| 巩留县| 措勤县| 临桂县| 临猗县| 邯郸县| 城口县| 郧西县| 西峡县| 陆川县| 双城市| 武平县| 讷河市| 横山县| 社旗县| 中山市| 大英县| 永安市| 鹤岗市| 东宁县| 鹤峰县| 手机| 甘南县| 灵寿县| 玉龙| 朝阳县| 巴彦县| 龙山县| 鹤壁市| 石首市| 石狮市|