首頁 > Ai資訊 > Ai產品

Project Astra： Google DeepMind 研發(fā)的一個具備視頻理解能力的原型

Project Astra于2024-05-16發(fā)布在Ai產品

Project Astra 是由 Google DeepMind 研發(fā)的一個研究原型，它具備視頻理解能力，并且能夠通過用戶的設備攝像頭和麥克風提供日常生活的幫助。在 Google I/O 2024 大會上，Google DeepMind 的首席執(zhí)行官 Demis Hassabis 宣布了 Project Astra。

Project Astra 是 Google 推出的一個多模態(tài) ai 項目，旨在開發(fā)一個能夠實時解釋用戶攝像頭畫面中物品的 AI 助手

Project Astra 的功能特征：

多模態(tài)交互：Project Astra 允許用戶通過語音、文本、繪圖、拍照和視頻等多種方式與之交互，提供了一個全面的交互體驗。

實時識別與記憶：Astra 能夠在不間斷的視頻中識別物品，并回憶起物品的位置。例如，它能夠識別眼鏡并指出它在桌子上的位置（靠近一個紅蘋果）。

代碼解釋：Astra 還能夠解釋屏幕上的代碼，這表明它能夠處理和理解復雜的視覺信息。

本地運行：Project Astra 基于 Gemini，可以本地運行在 Pixel 手機上，這表明它具有較高的處理速度和較低的延遲。

增強現實和人機交互：Project Astra 在增強現實和人機交互方面取得了重大進步，它讓設備不僅僅是獲取信息的工具，而是能夠理解和參與我們日常生活的伙伴。

企業(yè)級存儲和數據服務：值得注意的是，Project Astra 也被用作 NetApp 的一個項目名稱，該項目旨在為 Kubernetes 提供企業(yè)級存儲和數據服務平臺。

與 OpenAI 的競爭：Google 的 Project Astra 與 OpenAI 的 GPT-4o 有相似之處，兩者都在 AI 助手領域有相似的愿景，并且都在爭奪相同的市場。

未來展望：Project Astra 的目標是將技術嵌入到手機和可穿戴設備中，成為我們日常生活中無處不在的助手。盡管目前 Astra 還處于原型階段，但它已經展示了其在實時交互和多模態(tài)理解方面的潛力。

Project Astra 使用用戶設備上的攝像頭和麥克風，通過持續(xù)處理和編碼視頻幀和語音輸入，創(chuàng)建事件的時間線并緩存信息以便快速回憶。這使得 AI 能夠識別物體、回答問題，并記住它曾經看到過但已經不在攝像頭視野中的事物。

Google 表示，盡管 Project Astra 目前仍處于早期階段，并且沒有具體的發(fā)布計劃，但該公司暗示，這些能力中的一些可能會在今年晚些時候集成到像 Gemini 應用這樣的產品中（以一個名為 "Gemini Live" 的特性），這將是開發(fā)有用 AI 助手的重要一步。Google CEO Sundar Pichai 表示，這是為了創(chuàng)造一個具有“代理性”的代理，能夠“代表你思考、推理和規(guī)劃”。