我爱我色成人网,欧美日韩国产色,欧美亚视频在线中文字幕免费,亚洲国产影院

Ai應用
Ai資訊
AI生圖
AI生視頻
FastbuildAI

首頁 > Ai資訊 > Ai產品

GUIRoboTron-Speech：美團與浙江大推出的首個語音交互GUI智能體

映技派于2025-06-21發布在Ai產品

美團和浙江大學合作開發了GUIRoboTron-Speech，這是一個能用語音指令和設備屏幕截圖直接做決策的GUI智能體。它能讓用戶通過語音和設備屏幕截圖來操控計算機，避免了傳統文本輸入的不便。

GUIRoboTron-Speech解決了傳統依賴文本的限制。團隊通過創建高質量語音數據集、分階段訓練和混合指令訓練策略，成功訓練了這個智能體，讓它在多個任務上表現出色。研究發現，當用戶意圖明確時，語音指令比文本指令完成任務的成功率更高，未來還會繼續提高它處理復雜指令的能力。

GUIRoboTron-Speech：美團與浙江大推出的首個語音交互GUI智能體.jpg

核心功能

語音指令驅動：GUIRoboTron-Speech可以直接接收語音指令和設備屏幕截圖來預測并執行操作。用戶不用手動輸入文字，通過語音就能控制GUI代理。
多模態交互：它結合了語音和視覺兩種模態，能準確理解語音指令與GUI界面視覺元素的對應關系。

研發方法

數據集生成：由于缺乏語音指令數據集，團隊用先進的隨機音色文本轉語音（TTS）模型，把大規模文本指令數據集轉換成多種說話風格和音色的語音指令數據集。
漸進式訓練框架：訓練分兩個階段：
Grounding階段：模型學習語音指令與GUI視覺元素的精確對應，比如理解“點擊‘確定’按鈕”并在截圖中找到“確定”按鈕。
Planning階段：模型學習執行多步驟復雜任務，例如“先登錄賬號，再找最新郵件并打開附件”，展現邏輯推理和任務規劃能力。
啟發式混合指令訓練策略：為解決預訓練模型的模態不平衡問題，團隊在訓練中混合使用語音和文本指令，讓模型平等處理兩種輸入。

性能表現

指令模態對比：在ScreenSpot任務中，僅用語音指令訓練的模型平均grounding準確率比僅用文本指令的低1.6%，但采用混合指令策略后，準確率提高了1.9%。
GUI視覺Grounding：在Mobile和Web領域，GUIRoboTron-Speech用語音指令輸入時，性能與基于文本指令的先進方法相當。
多步驟任務執行：在AndroidControl和GUIOdyssey等多步驟任務數據集上，它的性能與一些基于文本指令的先進模型相當。

優勢與意義

提升交互便利性：用戶操作設備時無需手動輸入文字，通過語音就能完成各種操作，大大提高了交互的便利性。
拓展應用場景：該技術不僅適用于普通用戶的日常便捷操作，還適用于駕駛、醫療等需要雙手操作的特殊場景，提供更安全、高效的交互方式。
推動技術發展：GUIRoboTron-Speech為語音交互技術在GUI領域的應用提供了新思路和方法，推動了相關技術的發展。

項目鏈接

技術論文：https://arxiv.org/abs/2506.11127

Github倉庫：https://github.com/GUIRoboTron/GUIRoboTron-Speech

收藏

ImmerseGen：字節跳動和浙江大學聯合開發的3D場景生成框架

上一篇

ImmerseGen：字節跳動和浙江大學聯合開發的3D場景生成框架

Office-PowerPoint-MCP-Server：基于MCP的可以操作 PowerPoint的工具

下一篇

Office-PowerPoint-MCP-Server：基于MCP的可以操作 PowerPoint的工具

相關文章

MultiTalk：美團開源的音頻驅動多人對話視頻生

MultiTalk：美團開源的音頻驅動多人對話視頻生

2025-07-21

PosterCraft：高質量海報生成框架

PosterCraft：高質量海報生成框架

2025-06-24

美團一個外賣公司為什么要搞一個AI編程工具NoCod

美團一個外賣公司為什么要搞一個AI編程工具NoCod

2025-06-11

Spatial Speech Translation

Spatial Speech Translation

2025-05-04

Speech-02：MiniMax Audio新發布

Speech-02：MiniMax Audio新發布

2025-04-01

SpeechGPT 2.0-preview：首個面向

SpeechGPT 2.0-preview：首個面向

2025-01-27

最新文章

最新工具

Sweezy Cursors

一個提供免費鼠標光標??的網站，支持??Chrome瀏覽器??和...

CookingGames

一個提供免費烹飪和烘焙游戲的網站。這里有多種類型的游戲，適合不同...

Doll Divine

一款以換裝和角色創建為核心的在線游戲平臺，Doll Divine...

VoiceNovel

一個通過AI把小說變成有聲內容的在線平臺，它把用戶上傳的小說轉成...

SchedPilot

個人和團隊用的社交媒體內容調度管理工具，用AI技術實現多平臺發內...

MultiPost

一款免費開源的瀏覽器擴展，能將文本、圖片、視頻等內容一鍵分發到 ...

AI快研俠

一個專注用AI幫用戶高效完成研究工作的產品，AI快研俠圍繞“研究...

GameCreator

Catsoft Studios開發的游戲引擎，兼顧專業和愛好者需...

GirlsGoGames

簡稱GGG，是一個特別受女孩歡迎的在線免費游戲平臺。它提供各種有...

SweetyGame

一個專門做給女孩子玩的小游戲網站，主要以可愛、時尚、名人元素為...

人生若只如初見

用戶登錄

主站蜘蛛池模板：绥滨县| 陆川县| 祁阳县| 清水河县| 鲁甸县| 兖州市| 牙克石市| 武乡县| 临城县| 阿坝| 长寿区| 略阳县| 塔河县| 永寿县| 开平市| 修武县| 桐梓县| 沙雅县| 九江市| 汾西县| 永善县| 烟台市| 报价| 晋江市| 黑龙江省| 苏州市| 厦门市| 开鲁县| 富裕县| 泽州县| 台江县| 龙井市| 崇义县| 游戏| 始兴县| 宁波市| 衡东县| 五寨县| 周宁县| 疏勒县| 郧西县|