Gemma 3相比Gemma 2有哪些改進(jìn)？

Gemma于2025-03-12發(fā)布在Ai產(chǎn)品

就在剛剛，谷歌Gemma 3來(lái)了，1B、4B、12B和27B四種參數(shù)，一塊GPU/TPU就能跑！而Gemma 3僅以27B就擊敗了DeepSeek 671B模型，成為僅次于DeepSeek R1最優(yōu)開(kāi)源模型。相比 Gemma 2，Gemma 3 在以下方面進(jìn)行了改進(jìn)：

Gemma 3僅以27B就擊敗了DeepSeek 671B模型，成為僅次于DeepSeek R1最優(yōu)開(kāi)源模型。.webp

多模態(tài)能力

Gemma 3 引入了對(duì)文本、圖像和短視頻的混合輸入支持，能夠處理復(fù)雜的多模態(tài)任務(wù)，如圖像問(wèn)答、視頻內(nèi)容分析等。而 Gemma 2 主要集中在文本處理能力上。

性能提升

Gemma 3 被稱為“全球最強(qiáng)的單加速器模型”，在單 GPU 或 TPU 環(huán)境下表現(xiàn)顯著優(yōu)于 Gemma 2，推理速度在處理短視頻內(nèi)容時(shí)提升了 47%。

語(yǔ)言支持增強(qiáng)

Gemma 3 支持超過(guò) 140 種語(yǔ)言的預(yù)訓(xùn)練，并直接支持超過(guò) 35 種語(yǔ)言。相比之下，Gemma 2 的語(yǔ)言支持范圍更窄。

上下文窗口擴(kuò)展

Gemma 3 的上下文窗口擴(kuò)展到 128k 令牌，能夠處理更大量的信息，例如 30 張高分辨率圖像或 1 小時(shí)視頻內(nèi)容。這比 Gemma 2 的上下文窗口有了顯著提升。

視覺(jué)處理能力

Gemma 3 引入了動(dòng)態(tài)圖像切片技術(shù)和幀采樣與光流分析結(jié)合方案，支持高分辨率和非方形圖像，能夠在 20 秒內(nèi)完成 1 小時(shí)視頻的關(guān)鍵幀提取。而 Gemma 2 在視覺(jué)處理方面的能力較弱。

安全性增強(qiáng)

Gemma 3 配備了 ShieldGemma 2 圖像安全分類器，能夠檢測(cè)和標(biāo)記危險(xiǎn)內(nèi)容、色情內(nèi)容和暴力內(nèi)容，進(jìn)一步提升了模型的安全性。

硬件優(yōu)化

Gemma 3 針對(duì) Nvidia GPU 和 Google Cloud TPU 進(jìn)行了深度優(yōu)化，確保在不同硬件平臺(tái)上的高效運(yùn)行。此外，它還支持多種部署選項(xiàng)，包括 Vertex ai、Cloud Run 和本地環(huán)境。

訓(xùn)練與微調(diào)改進(jìn)

Gemma 3 采用知識(shí)蒸餾、強(qiáng)化學(xué)習(xí)（包括人類反饋和機(jī)器反饋）以及模型合并等技術(shù)，提升了模型在數(shù)學(xué)、編碼和指令跟隨方面的能力。同時(shí)，它提供了更靈活的微調(diào)工具，方便開(kāi)發(fā)者根據(jù)需求進(jìn)行定制。

社區(qū)與生態(tài)擴(kuò)展

Gemma 3 的發(fā)布進(jìn)一步豐富了“Gemmaverse”生態(tài)系統(tǒng)，開(kāi)發(fā)者可以基于其強(qiáng)大的功能開(kāi)發(fā)更多創(chuàng)新應(yīng)用。

總的來(lái)講，Gemma 3 在多模態(tài)處理、性能、語(yǔ)言支持、視覺(jué)處理和安全性等方面都有了明顯的提升，使它成為一款更適合多種設(shè)備部署和使用的強(qiáng)大AI模型。