Project Astra: Google DeepMind 研發的一個具備視頻理解能力的原型
Project Astra 是由 Google DeepMind 研發的一個研究原型,它具備視頻理解能力,并且能夠通過用戶的設備攝像頭和麥克風提供日常生活的幫助。在 Google I/O 2024 大會上,Google DeepMind 的首席執行官 Demis Hassabis 宣布了 Project Astra。
Project Astra 是 Google 推出的一個多模態 ai 項目,旨在開發一個能夠實時解釋用戶攝像頭畫面中物品的 AI 助手
Project Astra 的功能特征:
多模態交互:Project Astra 允許用戶通過語音、文本、繪圖、拍照和視頻等多種方式與之交互,提供了一個全面的交互體驗。
實時識別與記憶:Astra 能夠在不間斷的視頻中識別物品,并回憶起物品的位置。例如,它能夠識別眼鏡并指出它在桌子上的位置(靠近一個紅蘋果)。
代碼解釋:Astra 還能夠解釋屏幕上的代碼,這表明它能夠處理和理解復雜的視覺信息。
本地運行:Project Astra 基于 Gemini,可以本地運行在 Pixel 手機上,這表明它具有較高的處理速度和較低的延遲。
增強現實和人機交互:Project Astra 在增強現實和人機交互方面取得了重大進步,它讓設備不僅僅是獲取信息的工具,而是能夠理解和參與我們日常生活的伙伴。
企業級存儲和數據服務:值得注意的是,Project Astra 也被用作 NetApp 的一個項目名稱,該項目旨在為 Kubernetes 提供企業級存儲和數據服務平臺。
與 OpenAI 的競爭:Google 的 Project Astra 與 OpenAI 的 GPT-4o 有相似之處,兩者都在 AI 助手領域有相似的愿景,并且都在爭奪相同的市場。
未來展望:Project Astra 的目標是將技術嵌入到手機和可穿戴設備中,成為我們日常生活中無處不在的助手。盡管目前 Astra 還處于原型階段,但它已經展示了其在實時交互和多模態理解方面的潛力。
Project Astra 使用用戶設備上的攝像頭和麥克風,通過持續處理和編碼視頻幀和語音輸入,創建事件的時間線并緩存信息以便快速回憶。這使得 AI 能夠識別物體、回答問題,并記住它曾經看到過但已經不在攝像頭視野中的事物。
Google 表示,盡管 Project Astra 目前仍處于早期階段,并且沒有具體的發布計劃,但該公司暗示,這些能力中的一些可能會在今年晚些時候集成到像 Gemini 應用這樣的產品中(以一個名為 "Gemini Live" 的特性),這將是開發有用 AI 助手的重要一步。Google CEO Sundar Pichai 表示,這是為了創造一個具有“代理性”的代理,能夠“代表你思考、推理和規劃”。