Google推出下一代模型:Gemini 1.5
在推出Gemini(谷歌希望將其帶到ai行業(yè)的頂峰)僅兩個(gè)月后,該公司已經(jīng)宣布了新的版本。谷歌今天推出了 Gemini 1.5,并在即將推出全面的消費(fèi)者版之前將其提供給開發(fā)人員和企業(yè)用戶。
Gemini 1.5具有100萬(wàn)token的上下文理解能力,是目前最強(qiáng)!Gemini 1.5具有跨模態(tài)理解和推理:能夠?qū)ξ谋尽⒋a、圖像、音頻和視頻進(jìn)行高度復(fù)雜的理解和推理。允許分析1小時(shí)視頻、11小時(shí)音頻、超過(guò)30,000行代碼或超過(guò)700,000字的文本。
Gemini 1.5 的介紹:
1、性能提升:Gemini 1.5在多個(gè)維度上展現(xiàn)出顯著的性能提升,特別是在處理長(zhǎng)上下文信息的能力上實(shí)現(xiàn)了重大突破,可以連續(xù)處理高達(dá)100萬(wàn)個(gè)標(biāo)記(tokens),擁有迄今為止所有大型基礎(chǔ)模型中最長(zhǎng)的上下文窗口。
2、高效架構(gòu):Gemini 1.5 采用新的專家混合 (MoE) 架構(gòu)進(jìn)行設(shè)計(jì),使其訓(xùn)練和服務(wù)更加高效。同時(shí)在維持類似于1.0 Ultra模型的質(zhì)量的同時(shí),減少了計(jì)算需求。
在對(duì)一組文本、代碼、圖像、音頻和視頻評(píng)估進(jìn)行測(cè)試時(shí),Gemini1.5 Pro 在LLM的基準(zhǔn)測(cè)試中 以87% 的評(píng)分優(yōu)于 Gemini 1.0 Pro。并與最大模型1.0 Ultra在性能上大致相當(dāng)。
3、上下文學(xué)習(xí)能力:這一特點(diǎn)允許Gemini 1.5處理并分析大量信息,比如1小時(shí)的視頻、11小時(shí)的音頻、超過(guò)30,000行代碼的代碼庫(kù)或超過(guò)700,000字的文本。
當(dāng)Gemini 1.5 Pro被給予一個(gè)關(guān)于Kalamang語(yǔ)言的語(yǔ)法手冊(cè)時(shí),它能夠從提供的信息中學(xué)習(xí)新技能,并且能夠執(zhí)行從英語(yǔ)到Kalamang的翻譯任務(wù),其翻譯水平與從相同內(nèi)容學(xué)習(xí)的人類相似。
Kalamang是一種全球不到200名說(shuō)話者的小眾語(yǔ)言!
這一成就凸顯了Gemini 1.5 Pro處理罕見(jiàn)或小眾語(yǔ)言的能力,同時(shí)也證明了其在理解和應(yīng)用長(zhǎng)篇復(fù)雜文本信息方面的強(qiáng)大性能。這種能力對(duì)于語(yǔ)言學(xué)習(xí)、自然語(yǔ)言處理、以及跨文化交流的應(yīng)用具有重要意義。
4、跨模態(tài)理解和推理:Gemini 1.5能夠?qū)Σ煌B(tài)的內(nèi)容(包括文本、代碼、圖像、音頻和視頻)進(jìn)行高度復(fù)雜的理解和推理,例如,分析44分鐘的默片并準(zhǔn)確捕捉情節(jié)要點(diǎn)和細(xì)節(jié)。
5、增強(qiáng)性能:在文本、代碼、圖像、音頻和視頻評(píng)估的綜合面板上測(cè)試時(shí),能夠?qū)ξ谋?、代碼、圖像、音頻和視頻進(jìn)行高度復(fù)雜的理解和推理。Gemini 1.5可以精準(zhǔn)分析44分鐘默片中的情節(jié)要點(diǎn),展現(xiàn)對(duì)不同媒介內(nèi)容的深入理解。
Gemini 1.5 工作原理:
MoE技術(shù):通過(guò)將模型劃分為較小的“專家”神經(jīng)網(wǎng)絡(luò),并根據(jù)輸入類型選擇性激活最相關(guān)的專家路徑,MoE技術(shù)大大提高了模型的效率。通過(guò)一系列機(jī)器學(xué)習(xí)創(chuàng)新,Gemini 1.5能夠處理和分析前所未有的信息量,為開發(fā)者和企業(yè)客戶提供全新的能力,幫助他們的模型和應(yīng)用。這一長(zhǎng)上下文窗口的能力特別適用于需要處理大量數(shù)據(jù)和復(fù)雜情境的應(yīng)用場(chǎng)景,如深度分析大型文檔、視頻內(nèi)容理解、復(fù)雜代碼分析和多模態(tài)數(shù)據(jù)融合等。
谷歌目前正在進(jìn)行一場(chǎng)激烈的競(jìng)賽,以構(gòu)建最好的人工智能工具,因?yàn)槭澜绺鞯氐钠髽I(yè)都在試圖弄清楚自己的人工智能戰(zhàn)略,以及是否與OpenAI、谷歌或其他公司簽署開發(fā)者協(xié)議。就在同一天Google在發(fā)布Gemini Pro 1.5 的2小時(shí)后,OpenAI 宣布了文字生成視頻模型:Sora,該模型旨在允許網(wǎng)絡(luò)用戶僅通過(guò)文本提示生成高質(zhì)量的 AI 視頻。