Gemma 3相比Gemma 2有哪些改進(jìn)?
就在剛剛,谷歌Gemma 3來(lái)了,1B、4B、12B和27B四種參數(shù),一塊GPU/TPU就能跑!而Gemma 3僅以27B就擊敗了DeepSeek 671B模型,成為僅次于DeepSeek R1最優(yōu)開(kāi)源模型。相比 Gemma 2,Gemma 3 在以下方面進(jìn)行了改進(jìn):
多模態(tài)能力
Gemma 3 引入了對(duì)文本、圖像和短視頻的混合輸入支持,能夠處理復(fù)雜的多模態(tài)任務(wù),如圖像問(wèn)答、視頻內(nèi)容分析等。而 Gemma 2 主要集中在文本處理能力上。
性能提升
Gemma 3 被稱為“全球最強(qiáng)的單加速器模型”,在單 GPU 或 TPU 環(huán)境下表現(xiàn)顯著優(yōu)于 Gemma 2,推理速度在處理短視頻內(nèi)容時(shí)提升了 47%。
語(yǔ)言支持增強(qiáng)
Gemma 3 支持超過(guò) 140 種語(yǔ)言的預(yù)訓(xùn)練,并直接支持超過(guò) 35 種語(yǔ)言。相比之下,Gemma 2 的語(yǔ)言支持范圍更窄。
上下文窗口擴(kuò)展
Gemma 3 的上下文窗口擴(kuò)展到 128k 令牌,能夠處理更大量的信息,例如 30 張高分辨率圖像或 1 小時(shí)視頻內(nèi)容。這比 Gemma 2 的上下文窗口有了顯著提升。
視覺(jué)處理能力
Gemma 3 引入了動(dòng)態(tài)圖像切片技術(shù)和幀采樣與光流分析結(jié)合方案,支持高分辨率和非方形圖像,能夠在 20 秒內(nèi)完成 1 小時(shí)視頻的關(guān)鍵幀提取。而 Gemma 2 在視覺(jué)處理方面的能力較弱。
安全性增強(qiáng)
Gemma 3 配備了 ShieldGemma 2 圖像安全分類器,能夠檢測(cè)和標(biāo)記危險(xiǎn)內(nèi)容、色情內(nèi)容和暴力內(nèi)容,進(jìn)一步提升了模型的安全性。
硬件優(yōu)化
Gemma 3 針對(duì) Nvidia GPU 和 Google Cloud TPU 進(jìn)行了深度優(yōu)化,確保在不同硬件平臺(tái)上的高效運(yùn)行。此外,它還支持多種部署選項(xiàng),包括 Vertex ai、Cloud Run 和本地環(huán)境。
訓(xùn)練與微調(diào)改進(jìn)
Gemma 3 采用知識(shí)蒸餾、強(qiáng)化學(xué)習(xí)(包括人類反饋和機(jī)器反饋)以及模型合并等技術(shù),提升了模型在數(shù)學(xué)、編碼和指令跟隨方面的能力。同時(shí),它提供了更靈活的微調(diào)工具,方便開(kāi)發(fā)者根據(jù)需求進(jìn)行定制。
社區(qū)與生態(tài)擴(kuò)展
Gemma 3 的發(fā)布進(jìn)一步豐富了“Gemmaverse”生態(tài)系統(tǒng),開(kāi)發(fā)者可以基于其強(qiáng)大的功能開(kāi)發(fā)更多創(chuàng)新應(yīng)用。
總的來(lái)講,Gemma 3 在多模態(tài)處理、性能、語(yǔ)言支持、視覺(jué)處理和安全性等方面都有了明顯的提升,使它成為一款更適合多種設(shè)備部署和使用的強(qiáng)大AI模型。