PaliGemma:Google推出的開源視覺語言模型
PaliGemma是Google開發(fā)并發(fā)布的具有多模態(tài)功能的視覺語言模型(VLM)。 與其他 VLM(例如 Openai 的 GPT-4o、Google Gemini 和 Anthropic 的 Claude 3)不同,PaliGemma 具有廣泛的功能,并且能夠在特定任務(wù)上進(jìn)行微調(diào)以獲得更好的性能。
PaliGemma 與 2024 年 Google I/O 活動上的其他產(chǎn)品一起發(fā)布,是一個基于 Google 研究的另外兩個模型的組合多模態(tài)模型:SigLIP(視覺模型)和 Gemma(大型語言模型),這意味著該模型是一個組合Transformer 解碼器和 Vision Transformer 圖像編碼器。它以圖像和文本作為輸入并生成文本作為輸出,支持多種語言。
PaliGemma 能做什么?
PaliGemma 是一種單輪視覺語言模型,在針對特定用例進(jìn)行微調(diào)時效果最佳。這意味著您可以輸入圖像和文本字符串,例如為圖像添加標(biāo)題的提示或問題,PaliGemma 將輸出文本以響應(yīng)輸入,例如圖像的標(biāo)題、問題的答案或問題的答案。對象邊界框坐標(biāo)列表。
PaliGemma 適合執(zhí)行與 Google 發(fā)布的以下任務(wù)基準(zhǔn)測試結(jié)果相關(guān)的任務(wù):
對單個任務(wù)進(jìn)行微調(diào)
圖片問答和字幕
視頻問答和字幕
分割
這意味著 PaliGemma 對于與視覺數(shù)據(jù)相關(guān)的簡單且具體的問題非常有用。
我們創(chuàng)建了一個表格,根據(jù)常見基準(zhǔn)報告的結(jié)果來顯示 PaliGemma 相對于其他模型的結(jié)果。
雖然基準(zhǔn)是有用的數(shù)據(jù)點(diǎn),但它們并不能說明全部情況。 PaliGemma 旨在進(jìn)行微調(diào),其他模型是閉源的。為了顯示哪些選項(xiàng)可用,我們與其他無法微調(diào)的模型(通常更大)進(jìn)行比較。
值得進(jìn)行試驗(yàn),看看使用自定義數(shù)據(jù)進(jìn)行微調(diào)是否會為您的特定用例帶來比其他模型的開箱即用性能更好的性能。
在本文后面,我們將使用一組標(biāo)準(zhǔn)測試將 PaliGemma 與其他開源 VLM 和 LMM 進(jìn)行比較。繼續(xù)閱讀以了解其性能。
如何微調(diào) PaliGemma
PaliGemma 令人興奮的方面之一是它能夠?qū)ψ远x用例數(shù)據(jù)進(jìn)行微調(diào)。 Google PaliGemma 團(tuán)隊(duì)發(fā)布的筆記本展示了如何在小型數(shù)據(jù)集上進(jìn)行微調(diào)。
需要注意的是,在這個示例中,僅對注意力層進(jìn)行了微調(diào),因此性能改進(jìn)可能有限。
PaliGemma應(yīng)用
無論是使用 PaliGemma 零樣本還是根據(jù)自定義數(shù)據(jù)進(jìn)行微調(diào),都有針對 PaliGemma 優(yōu)勢量身定制的特定用例,這將為新的 AI 用例打開大門。讓我們看一下其中的兩個。
定制應(yīng)用程序
Claude 3、Gemini 1.5 Pro 和 GPT-4o 等模型可以開箱即用,并應(yīng)用于它們適合解決的問題。 PaliGemmi 為閉源模型仍無法解決的用例帶來了多模式功能,因?yàn)槟梢允褂门c您的問題相關(guān)的專有數(shù)據(jù)來微調(diào) PaliGemma。這在制造、消費(fèi)品、醫(yī)療保健和安全等行業(yè)非常有用。如果您遇到封閉模型沒有見過的獨(dú)特問題,并且由于其專有性質(zhì)而永遠(yuǎn)不會看到,那么 PaliGemma 是構(gòu)建定制 AI 解決方案的一個很好的切入點(diǎn)。
OCR
如本文前面所示,PaliGemma 是一個強(qiáng)大的 OCR 模型,無需任何額外的微調(diào)。當(dāng)構(gòu)建 OCR 應(yīng)用程序以擴(kuò)展到數(shù)十億個預(yù)測時,延遲、成本和準(zhǔn)確性可能難以平衡。在 PaliGemma 之前,閉源模型是同類最佳的性能選擇,但其成本和缺乏模型所有權(quán)使得它們難以在生產(chǎn)中證明其合理性。該模型可以提供即時性能,并通過對特定數(shù)據(jù)進(jìn)行微調(diào)來隨著時間的推移進(jìn)行改進(jìn)。