Google推出下一代模型：Gemini 1.5

Gemini于2024-02-16發(fā)布在Ai產(chǎn)品

在推出Gemini（谷歌希望將其帶到ai行業(yè)的頂峰）僅兩個月后，該公司已經(jīng)宣布了新的版本。谷歌今天推出了 Gemini 1.5，并在即將推出全面的消費者版之前將其提供給開發(fā)人員和企業(yè)用戶。

Gemini 1.5具有100萬token的上下文理解能力，是目前最強！Gemini 1.5具有跨模態(tài)理解和推理：能夠?qū)ξ谋尽⒋a、圖像、音頻和視頻進行高度復雜的理解和推理。允許分析1小時視頻、11小時音頻、超過30,000行代碼或超過700,000字的文本。

Gemini 1.5 的介紹：

1、性能提升：Gemini 1.5在多個維度上展現(xiàn)出顯著的性能提升，特別是在處理長上下文信息的能力上實現(xiàn)了重大突破，可以連續(xù)處理高達100萬個標記（tokens），擁有迄今為止所有大型基礎模型中最長的上下文窗口。

2、高效架構(gòu)：Gemini 1.5 采用新的專家混合 (MoE) 架構(gòu)進行設計，使其訓練和服務更加高效。同時在維持類似于1.0 Ultra模型的質(zhì)量的同時，減少了計算需求。

在對一組文本、代碼、圖像、音頻和視頻評估進行測試時，Gemini1.5 Pro 在LLM的基準測試中以87% 的評分優(yōu)于 Gemini 1.0 Pro。并與最大模型1.0 Ultra在性能上大致相當。

3、上下文學習能力：這一特點允許Gemini 1.5處理并分析大量信息，比如1小時的視頻、11小時的音頻、超過30,000行代碼的代碼庫或超過700,000字的文本。

當Gemini 1.5 Pro被給予一個關于Kalamang語言的語法手冊時，它能夠從提供的信息中學習新技能，并且能夠執(zhí)行從英語到Kalamang的翻譯任務，其翻譯水平與從相同內(nèi)容學習的人類相似。

Kalamang是一種全球不到200名說話者的小眾語言！

這一成就凸顯了Gemini 1.5 Pro處理罕見或小眾語言的能力，同時也證明了其在理解和應用長篇復雜文本信息方面的強大性能。這種能力對于語言學習、自然語言處理、以及跨文化交流的應用具有重要意義。

4、跨模態(tài)理解和推理：Gemini 1.5能夠?qū)Σ煌B(tài)的內(nèi)容（包括文本、代碼、圖像、音頻和視頻）進行高度復雜的理解和推理，例如，分析44分鐘的默片并準確捕捉情節(jié)要點和細節(jié)。

5、增強性能：在文本、代碼、圖像、音頻和視頻評估的綜合面板上測試時，能夠?qū)ξ谋尽⒋a、圖像、音頻和視頻進行高度復雜的理解和推理。Gemini 1.5可以精準分析44分鐘默片中的情節(jié)要點，展現(xiàn)對不同媒介內(nèi)容的深入理解。

Gemini 1.5 工作原理：

MoE技術：通過將模型劃分為較小的“專家”神經(jīng)網(wǎng)絡，并根據(jù)輸入類型選擇性激活最相關的專家路徑，MoE技術大大提高了模型的效率。通過一系列機器學習創(chuàng)新，Gemini 1.5能夠處理和分析前所未有的信息量，為開發(fā)者和企業(yè)客戶提供全新的能力，幫助他們的模型和應用。這一長上下文窗口的能力特別適用于需要處理大量數(shù)據(jù)和復雜情境的應用場景，如深度分析大型文檔、視頻內(nèi)容理解、復雜代碼分析和多模態(tài)數(shù)據(jù)融合等。

谷歌目前正在進行一場激烈的競賽，以構(gòu)建最好的人工智能工具，因為世界各地的企業(yè)都在試圖弄清楚自己的人工智能戰(zhàn)略，以及是否與OpenAI、谷歌或其他公司簽署開發(fā)者協(xié)議。就在同一天Google在發(fā)布Gemini Pro 1.5 的2小時后，OpenAI 宣布了文字生成視頻模型：Sora，該模型旨在允許網(wǎng)絡用戶僅通過文本提示生成高質(zhì)量的 AI 視頻。