GUIRoboTron-Speech:美團與浙江大推出的首個語音交互GUI智能體
美團和浙江大學合作開發了GUIRoboTron-Speech,這是一個能用語音指令和設備屏幕截圖直接做決策的GUI智能體。它能讓用戶通過語音和設備屏幕截圖來操控計算機,避免了傳統文本輸入的不便。
GUIRoboTron-Speech解決了傳統依賴文本的限制。團隊通過創建高質量語音數據集、分階段訓練和混合指令訓練策略,成功訓練了這個智能體,讓它在多個任務上表現出色。研究發現,當用戶意圖明確時,語音指令比文本指令完成任務的成功率更高,未來還會繼續提高它處理復雜指令的能力。
核心功能
語音指令驅動:GUIRoboTron-Speech可以直接接收語音指令和設備屏幕截圖來預測并執行操作。用戶不用手動輸入文字,通過語音就能控制GUI代理。
多模態交互:它結合了語音和視覺兩種模態,能準確理解語音指令與GUI界面視覺元素的對應關系。
研發方法
數據集生成:由于缺乏語音指令數據集,團隊用先進的隨機音色文本轉語音(TTS)模型,把大規模文本指令數據集轉換成多種說話風格和音色的語音指令數據集。
漸進式訓練框架:訓練分兩個階段:
Grounding階段:模型學習語音指令與GUI視覺元素的精確對應,比如理解“點擊‘確定’按鈕”并在截圖中找到“確定”按鈕。
Planning階段:模型學習執行多步驟復雜任務,例如“先登錄賬號,再找最新郵件并打開附件”,展現邏輯推理和任務規劃能力。
啟發式混合指令訓練策略:為解決預訓練模型的模態不平衡問題,團隊在訓練中混合使用語音和文本指令,讓模型平等處理兩種輸入。
性能表現
指令模態對比:在ScreenSpot任務中,僅用語音指令訓練的模型平均grounding準確率比僅用文本指令的低1.6%,但采用混合指令策略后,準確率提高了1.9%。
GUI視覺Grounding:在Mobile和Web領域,GUIRoboTron-Speech用語音指令輸入時,性能與基于文本指令的先進方法相當。
多步驟任務執行:在AndroidControl和GUIOdyssey等多步驟任務數據集上,它的性能與一些基于文本指令的先進模型相當。
優勢與意義
提升交互便利性:用戶操作設備時無需手動輸入文字,通過語音就能完成各種操作,大大提高了交互的便利性。
拓展應用場景:該技術不僅適用于普通用戶的日常便捷操作,還適用于駕駛、醫療等需要雙手操作的特殊場景,提供更安全、高效的交互方式。
推動技術發展:GUIRoboTron-Speech為語音交互技術在GUI領域的應用提供了新思路和方法,推動了相關技術的發展。
項目鏈接
技術論文:https://arxiv.org/abs/2506.11127
Github倉庫:https://github.com/GUIRoboTron/GUIRoboTron-Speech