微軟推出了兩款新模型:Phi-4-Multimodal多模態(tài)模型和Phi-4-Mini文本模型
微軟近期推出了兩款新模型,分別是Phi-4-Multimodal和Phi-4-Mini。
這兩款模型雖然設(shè)計得比較小巧,但功能可不容小覷。Phi-4-Multimodal是微軟首個多模態(tài)模型,它能把語音、視覺和文本處理等功能集成在一起,參數(shù)量有56億。Phi-4-Mini則專注于文本任務(wù),參數(shù)量為3.8億。這兩款模型都著重優(yōu)化了在設(shè)備端以及邊緣計算平臺下的性能,能有效降低計算成本和延遲。
Phi-4-Multimodal
Phi-4-Multimodal是什么?
Phi-4-Multimodal是一款參數(shù)為5.6億的多模態(tài)模型,主要負責(zé)處理文本、視覺以及語音/音頻數(shù)據(jù)。它運用了一種叫LoRA(Low-Rank Adaptation)的創(chuàng)新技術(shù),再搭配上特定模態(tài)的路由器,這樣就能在不擴大模型整體規(guī)模的前提下,很好地處理和推理多種模態(tài)的數(shù)據(jù)。
技術(shù)特點
Phi-4-Multimodal使用了SigLIP - 400M圖像編碼器和MLP投影器,能讓視覺信息與文本的表示空間相匹配。而且它還有動態(tài)多裁剪策略,不管是什么分辨率的圖像,都能處理得很不錯。在語音相關(guān)任務(wù)里,雖然語音/音頻模態(tài)的LoRA組件規(guī)模不大,但在OpenASR排行榜上,它的詞錯誤率(WER)達到了6.14%,排名第一,可見它在自動語音識別上的表現(xiàn)相當出色。
功能特點
多模態(tài)處理能力:Phi-4-Multimodal是微軟首款集成語音、視覺和文本處理的統(tǒng)一架構(gòu)多模態(tài)語言模型,參數(shù)量達56億。它能夠處理多種類型的數(shù)據(jù),例如文本、圖像、語音等,并將這些不同模態(tài)的信息融合起來,挖掘其中的關(guān)聯(lián)信息。
語音處理:在自動語音識別(ASR)和語音翻譯(ST)方面,Phi-4-Multimodal超越了WhisperV3和SeamlessM4T-v2-Large等專業(yè)語音模型,表現(xiàn)優(yōu)異。
視覺處理:在文檔理解、圖表理解、光學(xué)字符識別(OCR)和視覺科學(xué)推理等任務(wù)中,Phi-4-Multimodal與Gemini-2-Flash-lite-preview和Claude-3.5-Sonnet等流行模型相媲美甚至超越。
文本處理:在文本推理、數(shù)學(xué)計算、編程、指令遵循和函數(shù)調(diào)用等任務(wù)中,Phi-4-Multimodal表現(xiàn)出色。
應(yīng)用領(lǐng)域
Phi-4-Multimodal不光在視覺和語音任務(wù)中表現(xiàn)出色,在語音問答、文檔理解、光學(xué)字符識別以及科學(xué)推理等方面也很有競爭力。不過在一些知識密集型的問答上,它和更大規(guī)模的模型相比,可能稍微差一點。
智能助手領(lǐng)域:在智能家居控制方面,Phi-4-Multimodal可以根據(jù)用戶的語音指令和室內(nèi)攝像頭拍攝的畫面,更精準地執(zhí)行任務(wù)。
教育領(lǐng)域:對于在線教育中的多媒體學(xué)習(xí)資料,Phi-4-Multimodal可以分析視頻中的圖像、講解音頻對應(yīng)的文本等,為學(xué)生提供更全面的學(xué)習(xí)輔助。
Phi-4-Mini
Phi-4-Mini是什么?
Phi-4-Mini是一款專門針對文本任務(wù)設(shè)計的高效模型,有3.8億參數(shù)。它在語言理解和生成任務(wù)上的表現(xiàn),比它的參數(shù)規(guī)模所預(yù)期的要好很多,甚至在某些方面能和更大的模型相提并論。
技術(shù)特點
Phi-4-Mini采用了32層Transformer結(jié)構(gòu),隱藏狀態(tài)大小設(shè)定為3,072,還引入了Group Query Attention(GQA)機制,這樣就能更好地處理長上下文信息。另外,分數(shù)RoPE維度的運用,也讓它在處理長序列時效率更高。
功能特點
輕量化設(shè)計:Phi-4-Mini模型專注于文本任務(wù),參數(shù)量為38億。它采用了分組查詢注意力機制(GQA)和輸入/輸出嵌入綁定技術(shù),優(yōu)化了長上下文生成時的資源利用。
高效文本處理:在文本推理、數(shù)學(xué)計算、編程、指令遵循和函數(shù)調(diào)用等任務(wù)中,Phi-4-Mini表現(xiàn)優(yōu)異,超越了多款流行的大型語言模型。
應(yīng)用場景
移動應(yīng)用:在手機APP中,Phi-4-Mini可以為用戶提供便捷的語言交互服務(wù),快速回答關(guān)于景點信息、當?shù)亟煌ǖ葐栴}。
物聯(lián)網(wǎng)設(shè)備:對于智能音箱等物聯(lián)網(wǎng)設(shè)備,Phi-4-Mini可以在本地設(shè)備上進行一些簡單的語音交互處理,減少對云端的依賴,提高響應(yīng)速度和保護用戶隱私
性能表現(xiàn)
Phi-4-Mini雖然規(guī)模不大,但在推理、數(shù)學(xué)、編程等任務(wù)上,比同類的大型模型表現(xiàn)還要好,充分證明了它在特定任務(wù)上的高效性和準確性。
模型下載:https://huggingface.co/collections/microsoft/phi-4-677e9380e514feb5577a40e4