我爱我色成人网,欧美日韩国产色,欧美亚视频在线中文字幕免费,亚洲国产影院

PaliGemma:Google推出的開源視覺語言模型

PaliGemma:Google推出的開源視覺語言模型

PaliGemma是Google開發(fā)并發(fā)布的具有多模態(tài)功能的視覺語言模型(VLM)。 與其他 VLM(例如 Openai 的 GPT-4o、Google Gemini 和 Anthropic 的 Claude 3)不同,PaliGemma 具有廣泛的功能,并且能夠在特定任務(wù)上進(jìn)行微調(diào)以獲得更好的性能。

PaliGemma 與 2024 年 Google I/O 活動上的其他產(chǎn)品一起發(fā)布,是一個基于 Google 研究的另外兩個模型的組合多模態(tài)模型:SigLIP(視覺模型)和 Gemma(大型語言模型),這意味著該模型是一個組合Transformer 解碼器和 Vision Transformer 圖像編碼器。它以圖像和文本作為輸入并生成文本作為輸出,支持多種語言。

PaliGemma 能做什么?

PaliGemma 是一種單輪視覺語言模型,在針對特定用例進(jìn)行微調(diào)時效果最佳。這意味著您可以輸入圖像和文本字符串,例如為圖像添加標(biāo)題的提示或問題,PaliGemma 將輸出文本以響應(yīng)輸入,例如圖像的標(biāo)題、問題的答案或問題的答案。對象邊界框坐標(biāo)列表。

PaliGemma 適合執(zhí)行與 Google 發(fā)布的以下任務(wù)基準(zhǔn)測試結(jié)果相關(guān)的任務(wù):

  • 對單個任務(wù)進(jìn)行微調(diào)

  • 圖片問答和字幕

  • 視頻問答和字幕

  • 分割

這意味著 PaliGemma 對于與視覺數(shù)據(jù)相關(guān)的簡單且具體的問題非常有用。

我們創(chuàng)建了一個表格,根據(jù)常見基準(zhǔn)報告的結(jié)果來顯示 PaliGemma 相對于其他模型的結(jié)果。

雖然基準(zhǔn)是有用的數(shù)據(jù)點(diǎn),但它們并不能說明全部情況。 PaliGemma 旨在進(jìn)行微調(diào),其他模型是閉源的。為了顯示哪些選項(xiàng)可用,我們與其他無法微調(diào)的模型(通常更大)進(jìn)行比較。

值得進(jìn)行試驗(yàn),看看使用自定義數(shù)據(jù)進(jìn)行微調(diào)是否會為您的特定用例帶來比其他模型的開箱即用性能更好的性能。

在本文后面,我們將使用一組標(biāo)準(zhǔn)測試將 PaliGemma 與其他開源 VLM 和 LMM 進(jìn)行比較。繼續(xù)閱讀以了解其性能。

如何微調(diào) PaliGemma

PaliGemma 令人興奮的方面之一是它能夠?qū)ψ远x用例數(shù)據(jù)進(jìn)行微調(diào)。 Google PaliGemma 團(tuán)隊(duì)發(fā)布的筆記本展示了如何在小型數(shù)據(jù)集上進(jìn)行微調(diào)。

需要注意的是,在這個示例中,僅對注意力層進(jìn)行了微調(diào),因此性能改進(jìn)可能有限。

PaliGemma應(yīng)用

無論是使用 PaliGemma 零樣本還是根據(jù)自定義數(shù)據(jù)進(jìn)行微調(diào),都有針對 PaliGemma 優(yōu)勢量身定制的特定用例,這將為新的 AI 用例打開大門。讓我們看一下其中的兩個。

定制應(yīng)用程序

Claude 3、Gemini 1.5 Pro 和 GPT-4o 等模型可以開箱即用,并應(yīng)用于它們適合解決的問題。 PaliGemmi 為閉源模型仍無法解決的用例帶來了多模式功能,因?yàn)槟梢允褂门c您的問題相關(guān)的專有數(shù)據(jù)來微調(diào) PaliGemma。這在制造、消費(fèi)品、醫(yī)療保健和安全等行業(yè)非常有用。如果您遇到封閉模型沒有見過的獨(dú)特問題,并且由于其專有性質(zhì)而永遠(yuǎn)不會看到,那么 PaliGemma 是構(gòu)建定制 AI 解決方案的一個很好的切入點(diǎn)。

OCR

如本文前面所示,PaliGemma 是一個強(qiáng)大的 OCR 模型,無需任何額外的微調(diào)。當(dāng)構(gòu)建 OCR 應(yīng)用程序以擴(kuò)展到數(shù)十億個預(yù)測時,延遲、成本和準(zhǔn)確性可能難以平衡。在 PaliGemma 之前,閉源模型是同類最佳的性能選擇,但其成本和缺乏模型所有權(quán)使得它們難以在生產(chǎn)中證明其合理性。該模型可以提供即時性能,并通過對特定數(shù)據(jù)進(jìn)行微調(diào)來隨著時間的推移進(jìn)行改進(jìn)。

收藏
最新工具
Brizy AI
Brizy AI

一款A(yù)I網(wǎng)站生成器,不需要編碼技能,就可以通過簡單拖放操作和模板...

ImgEdify
ImgEdify

ImgEdify是一個集成AI圖像生成、編輯及轉(zhuǎn)換功能的AI圖像...

Dejob.Top
Dejob.Top

一個公益性質(zhì)的Web3招聘平臺,包含職位庫和人才庫,目前網(wǎng)站共有...

CrowdCore
CrowdCore

一款通過AI實(shí)現(xiàn)精準(zhǔn)網(wǎng)紅匹配、自動化外聯(lián)溝通及深度數(shù)據(jù)分析的網(wǎng)紅...

Medeo
Medeo

創(chuàng)作者的專屬AI視頻工作室。無論你有多少素材,哪怕只有一句話,他...

百雀AI外貿(mào)員
百雀AI外貿(mào)員

一款專為外貿(mào)企業(yè)量身定制的AI工具,具備24小時不間斷工作能力,...

SurveyGO卷姬
SurveyGO卷姬

清華面壁智能團(tuán)隊(duì)推出的AI論文寫作工具,通過自研的 LLMxMa...

AiAssistWorks
AiAssistWorks

一個在Google Workspace Marketplace上...

Aithor
Aithor

一款A(yù)I驅(qū)動的研究,AI寫作助手,可以幫助用戶生成高質(zhì)量的學(xué)術(shù)和...

CodeBuddy
CodeBuddy

騰訊云代碼助手,AI時代的智能編程伙伴,支持代碼生成、補(bǔ)全、診斷...

主站蜘蛛池模板: 宜兴市| 屯昌县| 铁力市| 天峻县| 五家渠市| 太湖县| 广河县| 蚌埠市| 台南市| 尼勒克县| 儋州市| 渝北区| 噶尔县| 万全县| 新昌县| 福泉市| 西平县| 高要市| 安徽省| 玉田县| 连南| 台江县| 旌德县| 兰溪市| 涞源县| 武威市| 太保市| 依兰县| 沙洋县| 乌海市| 贵德县| 淮南市| 济阳县| 万源市| 藁城市| 伊宁县| 蒲江县| 安仁县| 宣恩县| 繁峙县| 怀宁县|