字節(jié)跳動(dòng)UI-TARS:一款開(kāi)源的能夠自我學(xué)習(xí)的GUI Agent
字節(jié)跳動(dòng)于2025年1月22日開(kāi)源了一種原生圖形用戶界面(GUI)代理模型:UI-TARS,UI-TARS的名字來(lái)源于電影《星際穿越》中的TARS機(jī)器人,專為自動(dòng)化圖形界面交互設(shè)計(jì),預(yù)示著它具備高度的智能和自主思考能力。

UI-TARS 是什么?
UI-TARS能夠像人類一樣通過(guò)屏幕截圖觀察界面,并執(zhí)行鍵盤(pán)、鼠標(biāo)等操作,模擬人類操作手機(jī)和電腦并完成任務(wù)并具備高級(jí)的感知、推理和交互能力。
UI-TARS目標(biāo)是通過(guò)高度智能化的模型來(lái)控制和與用戶界面進(jìn)行交互,從而向更自然、高效的人機(jī)交互方式的轉(zhuǎn)變。
UI-TARS特征:
由視覺(jué)語(yǔ)言模型支持的自然語(yǔ)言控制
截圖和視覺(jué)識(shí)別支持
精確的鼠標(biāo)和鍵盤(pán)控制
跨平臺(tái)支持(Windows/MacOS)
實(shí)時(shí)反饋和狀態(tài)顯示
UI-TARS功能:
自我學(xué)習(xí)能力:UI-TARS具備自我學(xué)習(xí)的能力,可以通過(guò)不斷的交互和反饋來(lái)優(yōu)化其操作。
多平臺(tái)支持:該模型不僅適用于PC和MacOS,還能在手機(jī)和網(wǎng)頁(yè)上運(yùn)行,具有廣泛的適用性。
自然語(yǔ)言處理:UI-TARS能夠?qū)⑵聊唤貓D和自然語(yǔ)言指令作為輸入,準(zhǔn)確預(yù)測(cè)出完成指令的下一步操作,幫助用戶操作UI界面。
圖像識(shí)別:UI-TARS能夠處理屏幕截圖,識(shí)別界面元素并進(jìn)行相應(yīng)的操作,這使得它在UI自動(dòng)化測(cè)試和操作中非常有效。
增強(qiáng)感知:利用大規(guī)模的GUI屏幕截圖數(shù)據(jù)集,實(shí)現(xiàn)對(duì)UI元素的上下文感知理解和精確標(biāo)注。
統(tǒng)一動(dòng)作建模:將跨平臺(tái)的動(dòng)作標(biāo)準(zhǔn)化為統(tǒng)一空間,并通過(guò)大規(guī)模的動(dòng)作軌跡實(shí)現(xiàn)精確的定位和交互。
系統(tǒng)-2推理:將深思熟慮的推理納入多步驟決策,涉及任務(wù)分解、反思思維、里程碑識(shí)別等多種推理模式。
迭代訓(xùn)練:通過(guò)在數(shù)百臺(tái)虛擬機(jī)上自動(dòng)收集、過(guò)濾和反思性地精煉新的交互軌跡,解決數(shù)據(jù)瓶頸。
UI-TARS應(yīng)用場(chǎng)景
自動(dòng)化測(cè)試:UI-TARS可以用于軟件的自動(dòng)化測(cè)試,幫助開(kāi)發(fā)者快速驗(yàn)證用戶界面的功能和穩(wěn)定性。
網(wǎng)頁(yè)自動(dòng)化操作:Midscene.js與UI-TARS結(jié)合后,支持通過(guò)自然語(yǔ)言驅(qū)動(dòng)ai大模型,在當(dāng)前頁(yè)面狀態(tài)下進(jìn)行一系列操作后逼近人類的指令目標(biāo)。
任務(wù)自動(dòng)化:在日常工作中,UI-TARS可以幫助用戶自動(dòng)執(zhí)行重復(fù)性任務(wù),如數(shù)據(jù)錄入、信息檢索等,提高工作效率。
跨平臺(tái)操作:UI-TARS Desktop版本支持Windows和macOS系統(tǒng),顯示了其在不同操作系統(tǒng)上的廣泛適用性,為用戶提供一致的交互體驗(yàn)。
日常使用與辦公自動(dòng)化:通過(guò)自然語(yǔ)言控制,UI-TARS可以簡(jiǎn)化日常辦公任務(wù),如文件管理、應(yīng)用操作等,提高工作效率。
與傳統(tǒng)依賴模塊化框架或手工提示優(yōu)化的系統(tǒng)不同,UI-TARS采用端到端架構(gòu),依賴純視覺(jué)輸入,實(shí)現(xiàn)了對(duì)復(fù)雜任務(wù)的全面自動(dòng)化。UI-TARS不僅僅局限于測(cè)試場(chǎng)景,它更側(cè)重于日常用戶交互的智能化,通過(guò)AI的力量,使得與計(jì)算機(jī)的交互更加人性化。
UI-TARS項(xiàng)目地址:https://github.com/bytedance/UI-TARS
提交您的產(chǎn)品
Ai應(yīng)用
Ai資訊
AI生圖
AI生視頻
開(kāi)源AI應(yīng)用平臺(tái)









