首頁 > Ai資訊 > Ai產品

PaliGemma：Google推出的開源視覺語言模型

PaliGemma于2024-05-16發布在Ai產品

PaliGemma是Google開發并發布的具有多模態功能的視覺語言模型（VLM）。與其他 VLM（例如 Openai 的 GPT-4o、Google Gemini 和 Anthropic 的 Claude 3）不同，PaliGemma 具有廣泛的功能，并且能夠在特定任務上進行微調以獲得更好的性能。

PaliGemma 與 2024 年 Google I/O 活動上的其他產品一起發布，是一個基于 Google 研究的另外兩個模型的組合多模態模型：SigLIP（視覺模型）和 Gemma（大型語言模型），這意味著該模型是一個組合Transformer 解碼器和 Vision Transformer 圖像編碼器。它以圖像和文本作為輸入并生成文本作為輸出，支持多種語言。

PaliGemma 能做什么？

PaliGemma 是一種單輪視覺語言模型，在針對特定用例進行微調時效果最佳。這意味著您可以輸入圖像和文本字符串，例如為圖像添加標題的提示或問題，PaliGemma 將輸出文本以響應輸入，例如圖像的標題、問題的答案或問題的答案。對象邊界框坐標列表。

PaliGemma 適合執行與 Google 發布的以下任務基準測試結果相關的任務：

對單個任務進行微調
圖片問答和字幕
視頻問答和字幕
分割

這意味著 PaliGemma 對于與視覺數據相關的簡單且具體的問題非常有用。

我們創建了一個表格，根據常見基準報告的結果來顯示 PaliGemma 相對于其他模型的結果。

雖然基準是有用的數據點，但它們并不能說明全部情況。 PaliGemma 旨在進行微調，其他模型是閉源的。為了顯示哪些選項可用，我們與其他無法微調的模型（通常更大）進行比較。

值得進行試驗，看看使用自定義數據進行微調是否會為您的特定用例帶來比其他模型的開箱即用性能更好的性能。

在本文后面，我們將使用一組標準測試將 PaliGemma 與其他開源 VLM 和 LMM 進行比較。繼續閱讀以了解其性能。

如何微調 PaliGemma

PaliGemma 令人興奮的方面之一是它能夠對自定義用例數據進行微調。 Google PaliGemma 團隊發布的筆記本展示了如何在小型數據集上進行微調。

需要注意的是，在這個示例中，僅對注意力層進行了微調，因此性能改進可能有限。

PaliGemma應用

無論是使用 PaliGemma 零樣本還是根據自定義數據進行微調，都有針對 PaliGemma 優勢量身定制的特定用例，這將為新的 AI 用例打開大門。讓我們看一下其中的兩個。

定制應用程序

Claude 3、Gemini 1.5 Pro 和 GPT-4o 等模型可以開箱即用，并應用于它們適合解決的問題。 PaliGemmi 為閉源模型仍無法解決的用例帶來了多模式功能，因為您可以使用與您的問題相關的專有數據來微調 PaliGemma。這在制造、消費品、醫療保健和安全等行業非常有用。如果您遇到封閉模型沒有見過的獨特問題，并且由于其專有性質而永遠不會看到，那么 PaliGemma 是構建定制 AI 解決方案的一個很好的切入點。

OCR

如本文前面所示，PaliGemma 是一個強大的 OCR 模型，無需任何額外的微調。當構建 OCR 應用程序以擴展到數十億個預測時，延遲、成本和準確性可能難以平衡。在 PaliGemma 之前，閉源模型是同類最佳的性能選擇，但其成本和缺乏模型所有權使得它們難以在生產中證明其合理性。該模型可以提供即時性能，并通過對特定數據進行微調來隨著時間的推移進行改進。