Gemma 3相比Gemma 2有哪些改進?
就在剛剛,谷歌Gemma 3來了,1B、4B、12B和27B四種參數(shù),一塊GPU/TPU就能跑!而Gemma 3僅以27B就擊敗了DeepSeek 671B模型,成為僅次于DeepSeek R1最優(yōu)開源模型。相比 Gemma 2,Gemma 3 在以下方面進行了改進:
多模態(tài)能力
Gemma 3 引入了對文本、圖像和短視頻的混合輸入支持,能夠處理復雜的多模態(tài)任務,如圖像問答、視頻內(nèi)容分析等。而 Gemma 2 主要集中在文本處理能力上。
性能提升
Gemma 3 被稱為“全球最強的單加速器模型”,在單 GPU 或 TPU 環(huán)境下表現(xiàn)顯著優(yōu)于 Gemma 2,推理速度在處理短視頻內(nèi)容時提升了 47%。
語言支持增強
Gemma 3 支持超過 140 種語言的預訓練,并直接支持超過 35 種語言。相比之下,Gemma 2 的語言支持范圍更窄。
上下文窗口擴展
Gemma 3 的上下文窗口擴展到 128k 令牌,能夠處理更大量的信息,例如 30 張高分辨率圖像或 1 小時視頻內(nèi)容。這比 Gemma 2 的上下文窗口有了顯著提升。
視覺處理能力
Gemma 3 引入了動態(tài)圖像切片技術和幀采樣與光流分析結(jié)合方案,支持高分辨率和非方形圖像,能夠在 20 秒內(nèi)完成 1 小時視頻的關鍵幀提取。而 Gemma 2 在視覺處理方面的能力較弱。
安全性增強
Gemma 3 配備了 ShieldGemma 2 圖像安全分類器,能夠檢測和標記危險內(nèi)容、色情內(nèi)容和暴力內(nèi)容,進一步提升了模型的安全性。
硬件優(yōu)化
Gemma 3 針對 Nvidia GPU 和 Google Cloud TPU 進行了深度優(yōu)化,確保在不同硬件平臺上的高效運行。此外,它還支持多種部署選項,包括 Vertex ai、Cloud Run 和本地環(huán)境。
訓練與微調(diào)改進
Gemma 3 采用知識蒸餾、強化學習(包括人類反饋和機器反饋)以及模型合并等技術,提升了模型在數(shù)學、編碼和指令跟隨方面的能力。同時,它提供了更靈活的微調(diào)工具,方便開發(fā)者根據(jù)需求進行定制。
社區(qū)與生態(tài)擴展
Gemma 3 的發(fā)布進一步豐富了“Gemmaverse”生態(tài)系統(tǒng),開發(fā)者可以基于其強大的功能開發(fā)更多創(chuàng)新應用。
總的來講,Gemma 3 在多模態(tài)處理、性能、語言支持、視覺處理和安全性等方面都有了明顯的提升,使它成為一款更適合多種設備部署和使用的強大AI模型。