Google推出下一代模型:Gemini 1.5
在推出Gemini(谷歌希望將其帶到ai行業的頂峰)僅兩個月后,該公司已經宣布了新的版本。谷歌今天推出了 Gemini 1.5,并在即將推出全面的消費者版之前將其提供給開發人員和企業用戶。
Gemini 1.5具有100萬token的上下文理解能力,是目前最強!Gemini 1.5具有跨模態理解和推理:能夠對文本、代碼、圖像、音頻和視頻進行高度復雜的理解和推理。允許分析1小時視頻、11小時音頻、超過30,000行代碼或超過700,000字的文本。
Gemini 1.5 的介紹:
1、性能提升:Gemini 1.5在多個維度上展現出顯著的性能提升,特別是在處理長上下文信息的能力上實現了重大突破,可以連續處理高達100萬個標記(tokens),擁有迄今為止所有大型基礎模型中最長的上下文窗口。
2、高效架構:Gemini 1.5 采用新的專家混合 (MoE) 架構進行設計,使其訓練和服務更加高效。同時在維持類似于1.0 Ultra模型的質量的同時,減少了計算需求。
在對一組文本、代碼、圖像、音頻和視頻評估進行測試時,Gemini1.5 Pro 在LLM的基準測試中 以87% 的評分優于 Gemini 1.0 Pro。并與最大模型1.0 Ultra在性能上大致相當。
3、上下文學習能力:這一特點允許Gemini 1.5處理并分析大量信息,比如1小時的視頻、11小時的音頻、超過30,000行代碼的代碼庫或超過700,000字的文本。
當Gemini 1.5 Pro被給予一個關于Kalamang語言的語法手冊時,它能夠從提供的信息中學習新技能,并且能夠執行從英語到Kalamang的翻譯任務,其翻譯水平與從相同內容學習的人類相似。
Kalamang是一種全球不到200名說話者的小眾語言!
這一成就凸顯了Gemini 1.5 Pro處理罕見或小眾語言的能力,同時也證明了其在理解和應用長篇復雜文本信息方面的強大性能。這種能力對于語言學習、自然語言處理、以及跨文化交流的應用具有重要意義。
4、跨模態理解和推理:Gemini 1.5能夠對不同模態的內容(包括文本、代碼、圖像、音頻和視頻)進行高度復雜的理解和推理,例如,分析44分鐘的默片并準確捕捉情節要點和細節。
5、增強性能:在文本、代碼、圖像、音頻和視頻評估的綜合面板上測試時,能夠對文本、代碼、圖像、音頻和視頻進行高度復雜的理解和推理。Gemini 1.5可以精準分析44分鐘默片中的情節要點,展現對不同媒介內容的深入理解。
Gemini 1.5 工作原理:
MoE技術:通過將模型劃分為較小的“專家”神經網絡,并根據輸入類型選擇性激活最相關的專家路徑,MoE技術大大提高了模型的效率。通過一系列機器學習創新,Gemini 1.5能夠處理和分析前所未有的信息量,為開發者和企業客戶提供全新的能力,幫助他們的模型和應用。這一長上下文窗口的能力特別適用于需要處理大量數據和復雜情境的應用場景,如深度分析大型文檔、視頻內容理解、復雜代碼分析和多模態數據融合等。
谷歌目前正在進行一場激烈的競賽,以構建最好的人工智能工具,因為世界各地的企業都在試圖弄清楚自己的人工智能戰略,以及是否與OpenAI、谷歌或其他公司簽署開發者協議。就在同一天Google在發布Gemini Pro 1.5 的2小時后,OpenAI 宣布了文字生成視頻模型:Sora,該模型旨在允許網絡用戶僅通過文本提示生成高質量的 AI 視頻。