我爱我色成人网,欧美日韩国产色,欧美亚视频在线中文字幕免费,亚洲国产影院

PaliGemma:Google推出的開源視覺語言模型

PaliGemma:Google推出的開源視覺語言模型

PaliGemma是Google開發(fā)并發(fā)布的具有多模態(tài)功能的視覺語言模型(VLM)。 與其他 VLM(例如 Openai 的 GPT-4o、Google Gemini 和 Anthropic 的 Claude 3)不同,PaliGemma 具有廣泛的功能,并且能夠在特定任務(wù)上進(jìn)行微調(diào)以獲得更好的性能。

PaliGemma 與 2024 年 Google I/O 活動上的其他產(chǎn)品一起發(fā)布,是一個基于 Google 研究的另外兩個模型的組合多模態(tài)模型:SigLIP(視覺模型)和 Gemma(大型語言模型),這意味著該模型是一個組合Transformer 解碼器和 Vision Transformer 圖像編碼器。它以圖像和文本作為輸入并生成文本作為輸出,支持多種語言。

PaliGemma 能做什么?

PaliGemma 是一種單輪視覺語言模型,在針對特定用例進(jìn)行微調(diào)時效果最佳。這意味著您可以輸入圖像和文本字符串,例如為圖像添加標(biāo)題的提示或問題,PaliGemma 將輸出文本以響應(yīng)輸入,例如圖像的標(biāo)題、問題的答案或問題的答案。對象邊界框坐標(biāo)列表。

PaliGemma 適合執(zhí)行與 Google 發(fā)布的以下任務(wù)基準(zhǔn)測試結(jié)果相關(guān)的任務(wù):

  • 對單個任務(wù)進(jìn)行微調(diào)

  • 圖片問答和字幕

  • 視頻問答和字幕

  • 分割

這意味著 PaliGemma 對于與視覺數(shù)據(jù)相關(guān)的簡單且具體的問題非常有用。

我們創(chuàng)建了一個表格,根據(jù)常見基準(zhǔn)報告的結(jié)果來顯示 PaliGemma 相對于其他模型的結(jié)果。

雖然基準(zhǔn)是有用的數(shù)據(jù)點(diǎn),但它們并不能說明全部情況。 PaliGemma 旨在進(jìn)行微調(diào),其他模型是閉源的。為了顯示哪些選項(xiàng)可用,我們與其他無法微調(diào)的模型(通常更大)進(jìn)行比較。

值得進(jìn)行試驗(yàn),看看使用自定義數(shù)據(jù)進(jìn)行微調(diào)是否會為您的特定用例帶來比其他模型的開箱即用性能更好的性能。

在本文后面,我們將使用一組標(biāo)準(zhǔn)測試將 PaliGemma 與其他開源 VLM 和 LMM 進(jìn)行比較。繼續(xù)閱讀以了解其性能。

如何微調(diào) PaliGemma

PaliGemma 令人興奮的方面之一是它能夠?qū)ψ远x用例數(shù)據(jù)進(jìn)行微調(diào)。 Google PaliGemma 團(tuán)隊(duì)發(fā)布的筆記本展示了如何在小型數(shù)據(jù)集上進(jìn)行微調(diào)。

需要注意的是,在這個示例中,僅對注意力層進(jìn)行了微調(diào),因此性能改進(jìn)可能有限。

PaliGemma應(yīng)用

無論是使用 PaliGemma 零樣本還是根據(jù)自定義數(shù)據(jù)進(jìn)行微調(diào),都有針對 PaliGemma 優(yōu)勢量身定制的特定用例,這將為新的 AI 用例打開大門。讓我們看一下其中的兩個。

定制應(yīng)用程序

Claude 3、Gemini 1.5 Pro 和 GPT-4o 等模型可以開箱即用,并應(yīng)用于它們適合解決的問題。 PaliGemmi 為閉源模型仍無法解決的用例帶來了多模式功能,因?yàn)槟梢允褂门c您的問題相關(guān)的專有數(shù)據(jù)來微調(diào) PaliGemma。這在制造、消費(fèi)品、醫(yī)療保健和安全等行業(yè)非常有用。如果您遇到封閉模型沒有見過的獨(dú)特問題,并且由于其專有性質(zhì)而永遠(yuǎn)不會看到,那么 PaliGemma 是構(gòu)建定制 AI 解決方案的一個很好的切入點(diǎn)。

OCR

如本文前面所示,PaliGemma 是一個強(qiáng)大的 OCR 模型,無需任何額外的微調(diào)。當(dāng)構(gòu)建 OCR 應(yīng)用程序以擴(kuò)展到數(shù)十億個預(yù)測時,延遲、成本和準(zhǔn)確性可能難以平衡。在 PaliGemma 之前,閉源模型是同類最佳的性能選擇,但其成本和缺乏模型所有權(quán)使得它們難以在生產(chǎn)中證明其合理性。該模型可以提供即時性能,并通過對特定數(shù)據(jù)進(jìn)行微調(diào)來隨著時間的推移進(jìn)行改進(jìn)。

收藏
最新工具
PrettyScale
PrettyScale

一個在線面部分析及顏值打分網(wǎng)站,用戶通過上傳照片或直接用攝像頭參...

圓周旅跡
圓周旅跡

一款旅游出行AI智能規(guī)劃APP,它可以直接從小紅書這些平臺導(dǎo)入別...

Wonderplan AI
Wonderplan AI

一個免費(fèi)的AI旅游規(guī)劃工具,能根據(jù)你的喜好、需求生成專屬行程,支...

智寫流程
智寫流程

一個能自動記錄網(wǎng)頁操作并生成操作指南的工具。它能捕捉鼠標(biāo)點(diǎn)擊、鍵...

ReactBits
ReactBits

一個免費(fèi)開源的動畫化、可交互React組件庫,里面有好多動畫化、...

電視眼
電視眼

也叫TV眼,是一個在線網(wǎng)絡(luò)電視直播網(wǎng)站,提供全國5000+個電視...

Excel Dashboard Ai
Excel Dashboard Ai

一款能自動把 Excel 或 CSV 文件變成帶交互功能的儀表盤...

ByRutor
ByRutor

俄羅斯的一個免費(fèi)游戲資源下載網(wǎng)站,提供超23,000多款游戲,涵...

RandomStreetView
RandomStreetView

一個可以隨機(jī)展示全球谷歌街景照片的網(wǎng)站,每次點(diǎn)按鈕,系統(tǒng)會隨機(jī)選...

ZType
ZType

官網(wǎng):zty.pe,一個把打字練習(xí)和射擊游戲結(jié)合的在線工具。玩家...

主站蜘蛛池模板: 宣城市| 霍城县| 德清县| 枣阳市| 梁平县| 固阳县| 建阳市| 彭山县| 时尚| 顺昌县| 岱山县| 南开区| 纳雍县| 马关县| 金坛市| 合川市| 佳木斯市| 天峻县| 北流市| 子长县| 辽中县| 鹤山市| 绥德县| 武冈市| 五家渠市| 仙桃市| 菏泽市| 班戈县| 邹城市| 山阳县| 兰考县| 宜春市| 三明市| 蛟河市| 深泽县| 青田县| 大余县| 运城市| 若尔盖县| 宁波市| 镇平县|