我爱我色成人网,欧美日韩国产色,欧美亚视频在线中文字幕免费,亚洲国产影院

微軟推出了兩款新模型:Phi-4-Multimodal多模態(tài)模型和Phi-4-Mini文本模型

微軟近期推出了兩款新模型,分別是Phi-4-Multimodal和Phi-4-Mini。

這兩款模型雖然設(shè)計得比較小巧,但功能可不容小覷。Phi-4-Multimodal是微軟首個多模態(tài)模型,它能把語音、視覺和文本處理等功能集成在一起,參數(shù)量有56億。Phi-4-Mini則專注于文本任務(wù),參數(shù)量為3.8億。這兩款模型都著重優(yōu)化了在設(shè)備端以及邊緣計算平臺下的性能,能有效降低計算成本和延遲。

微軟推出了兩款新模型:Phi-4-Multimodal多模態(tài)型和Phi-4-Mini文本模型.webp

Phi-4-Multimodal

Phi-4-Multimodal是什么?

Phi-4-Multimodal是一款參數(shù)為5.6億的多模態(tài)模型,主要負責(zé)處理文本、視覺以及語音/音頻數(shù)據(jù)。它運用了一種叫LoRA(Low-Rank Adaptation)的創(chuàng)新技術(shù),再搭配上特定模態(tài)的路由器,這樣就能在不擴大模型整體規(guī)模的前提下,很好地處理和推理多種模態(tài)的數(shù)據(jù)。

技術(shù)特點

Phi-4-Multimodal使用了SigLIP - 400M圖像編碼器和MLP投影器,能讓視覺信息與文本的表示空間相匹配。而且它還有動態(tài)多裁剪策略,不管是什么分辨率的圖像,都能處理得很不錯。在語音相關(guān)任務(wù)里,雖然語音/音頻模態(tài)的LoRA組件規(guī)模不大,但在OpenASR排行榜上,它的詞錯誤率(WER)達到了6.14%,排名第一,可見它在自動語音識別上的表現(xiàn)相當出色。

功能特點

  • 多模態(tài)處理能力:Phi-4-Multimodal是微軟首款集成語音、視覺和文本處理的統(tǒng)一架構(gòu)多模態(tài)語言模型,參數(shù)量達56億。它能夠處理多種類型的數(shù)據(jù),例如文本、圖像、語音等,并將這些不同模態(tài)的信息融合起來,挖掘其中的關(guān)聯(lián)信息。

  • 語音處理:在自動語音識別(ASR)和語音翻譯(ST)方面,Phi-4-Multimodal超越了WhisperV3和SeamlessM4T-v2-Large等專業(yè)語音模型,表現(xiàn)優(yōu)異。

  • 視覺處理:在文檔理解、圖表理解、光學(xué)字符識別(OCR)和視覺科學(xué)推理等任務(wù)中,Phi-4-Multimodal與Gemini-2-Flash-lite-preview和Claude-3.5-Sonnet等流行模型相媲美甚至超越。

  • 文本處理:在文本推理、數(shù)學(xué)計算、編程、指令遵循和函數(shù)調(diào)用等任務(wù)中,Phi-4-Multimodal表現(xiàn)出色。

應(yīng)用領(lǐng)域

Phi-4-Multimodal不光在視覺和語音任務(wù)中表現(xiàn)出色,在語音問答、文檔理解、光學(xué)字符識別以及科學(xué)推理等方面也很有競爭力。不過在一些知識密集型的問答上,它和更大規(guī)模的模型相比,可能稍微差一點。

  • 智能助手領(lǐng)域:在智能家居控制方面,Phi-4-Multimodal可以根據(jù)用戶的語音指令和室內(nèi)攝像頭拍攝的畫面,更精準地執(zhí)行任務(wù)。

  • 教育領(lǐng)域:對于在線教育中的多媒體學(xué)習(xí)資料,Phi-4-Multimodal可以分析視頻中的圖像、講解音頻對應(yīng)的文本等,為學(xué)生提供更全面的學(xué)習(xí)輔助。

微軟推出了兩款新模型:Phi-4-Multimodal多模態(tài)型和Phi-4-Mini文本模型.webp

Phi-4-Mini

Phi-4-Mini是什么?

Phi-4-Mini是一款專門針對文本任務(wù)設(shè)計的高效模型,有3.8億參數(shù)。它在語言理解和生成任務(wù)上的表現(xiàn),比它的參數(shù)規(guī)模所預(yù)期的要好很多,甚至在某些方面能和更大的模型相提并論。

技術(shù)特點

Phi-4-Mini采用了32層Transformer結(jié)構(gòu),隱藏狀態(tài)大小設(shè)定為3,072,還引入了Group Query Attention(GQA)機制,這樣就能更好地處理長上下文信息。另外,分數(shù)RoPE維度的運用,也讓它在處理長序列時效率更高。

功能特點

輕量化設(shè)計:Phi-4-Mini模型專注于文本任務(wù),參數(shù)量為38億。它采用了分組查詢注意力機制(GQA)和輸入/輸出嵌入綁定技術(shù),優(yōu)化了長上下文生成時的資源利用。

高效文本處理:在文本推理、數(shù)學(xué)計算、編程、指令遵循和函數(shù)調(diào)用等任務(wù)中,Phi-4-Mini表現(xiàn)優(yōu)異,超越了多款流行的大型語言模型。

應(yīng)用場景

移動應(yīng)用:在手機APP中,Phi-4-Mini可以為用戶提供便捷的語言交互服務(wù),快速回答關(guān)于景點信息、當?shù)亟煌ǖ葐栴}。

物聯(lián)網(wǎng)設(shè)備:對于智能音箱等物聯(lián)網(wǎng)設(shè)備,Phi-4-Mini可以在本地設(shè)備上進行一些簡單的語音交互處理,減少對云端的依賴,提高響應(yīng)速度和保護用戶隱私

性能表現(xiàn)

Phi-4-Mini雖然規(guī)模不大,但在推理、數(shù)學(xué)、編程等任務(wù)上,比同類的大型模型表現(xiàn)還要好,充分證明了它在特定任務(wù)上的高效性和準確性。

模型下載:https://huggingface.co/collections/microsoft/phi-4-677e9380e514feb5577a40e4

收藏
最新工具
PrettyScale
PrettyScale

一個在線面部分析及顏值打分網(wǎng)站,用戶通過上傳照片或直接用攝像頭參...

圓周旅跡
圓周旅跡

一款旅游出行AI智能規(guī)劃APP,它可以直接從小紅書這些平臺導(dǎo)入別...

Wonderplan AI
Wonderplan AI

一個免費的AI旅游規(guī)劃工具,能根據(jù)你的喜好、需求生成專屬行程,支...

智寫流程
智寫流程

一個能自動記錄網(wǎng)頁操作并生成操作指南的工具。它能捕捉鼠標點擊、鍵...

ReactBits
ReactBits

一個免費開源的動畫化、可交互React組件庫,里面有好多動畫化、...

電視眼
電視眼

也叫TV眼,是一個在線網(wǎng)絡(luò)電視直播網(wǎng)站,提供全國5000+個電視...

Excel Dashboard Ai
Excel Dashboard Ai

一款能自動把 Excel 或 CSV 文件變成帶交互功能的儀表盤...

ByRutor
ByRutor

俄羅斯的一個免費游戲資源下載網(wǎng)站,提供超23,000多款游戲,涵...

RandomStreetView
RandomStreetView

一個可以隨機展示全球谷歌街景照片的網(wǎng)站,每次點按鈕,系統(tǒng)會隨機選...

ZType
ZType

官網(wǎng):zty.pe,一個把打字練習(xí)和射擊游戲結(jié)合的在線工具。玩家...

主站蜘蛛池模板: 新和县| 蓝山县| 齐齐哈尔市| 峨山| 临西县| 孙吴县| 祁连县| 滁州市| 康马县| 嫩江县| 濮阳市| 靖西县| 息烽县| 德昌县| 苍溪县| 什邡市| 周宁县| 望都县| 定边县| 新邵县| 依兰县| 天等县| 徐州市| 溧阳市| 宝丰县| 涪陵区| 句容市| 林州市| 小金县| 邛崃市| 石阡县| 梅河口市| 赣榆县| 县级市| 郸城县| 余姚市| 惠水县| 东海县| 祁门县| 海南省| 锦屏县|