微軟推出了兩款新模型:Phi-4-Multimodal多模態模型和Phi-4-Mini文本模型
微軟近期推出了兩款新模型,分別是Phi-4-Multimodal和Phi-4-Mini。
這兩款模型雖然設計得比較小巧,但功能可不容小覷。Phi-4-Multimodal是微軟首個多模態模型,它能把語音、視覺和文本處理等功能集成在一起,參數量有56億。Phi-4-Mini則專注于文本任務,參數量為3.8億。這兩款模型都著重優化了在設備端以及邊緣計算平臺下的性能,能有效降低計算成本和延遲。
Phi-4-Multimodal
Phi-4-Multimodal是什么?
Phi-4-Multimodal是一款參數為5.6億的多模態模型,主要負責處理文本、視覺以及語音/音頻數據。它運用了一種叫LoRA(Low-Rank Adaptation)的創新技術,再搭配上特定模態的路由器,這樣就能在不擴大模型整體規模的前提下,很好地處理和推理多種模態的數據。
技術特點
Phi-4-Multimodal使用了SigLIP - 400M圖像編碼器和MLP投影器,能讓視覺信息與文本的表示空間相匹配。而且它還有動態多裁剪策略,不管是什么分辨率的圖像,都能處理得很不錯。在語音相關任務里,雖然語音/音頻模態的LoRA組件規模不大,但在OpenASR排行榜上,它的詞錯誤率(WER)達到了6.14%,排名第一,可見它在自動語音識別上的表現相當出色。
功能特點
多模態處理能力:Phi-4-Multimodal是微軟首款集成語音、視覺和文本處理的統一架構多模態語言模型,參數量達56億。它能夠處理多種類型的數據,例如文本、圖像、語音等,并將這些不同模態的信息融合起來,挖掘其中的關聯信息。
語音處理:在自動語音識別(ASR)和語音翻譯(ST)方面,Phi-4-Multimodal超越了WhisperV3和SeamlessM4T-v2-Large等專業語音模型,表現優異。
視覺處理:在文檔理解、圖表理解、光學字符識別(OCR)和視覺科學推理等任務中,Phi-4-Multimodal與Gemini-2-Flash-lite-preview和Claude-3.5-Sonnet等流行模型相媲美甚至超越。
文本處理:在文本推理、數學計算、編程、指令遵循和函數調用等任務中,Phi-4-Multimodal表現出色。
應用領域
Phi-4-Multimodal不光在視覺和語音任務中表現出色,在語音問答、文檔理解、光學字符識別以及科學推理等方面也很有競爭力。不過在一些知識密集型的問答上,它和更大規模的模型相比,可能稍微差一點。
智能助手領域:在智能家居控制方面,Phi-4-Multimodal可以根據用戶的語音指令和室內攝像頭拍攝的畫面,更精準地執行任務。
教育領域:對于在線教育中的多媒體學習資料,Phi-4-Multimodal可以分析視頻中的圖像、講解音頻對應的文本等,為學生提供更全面的學習輔助。
Phi-4-Mini
Phi-4-Mini是什么?
Phi-4-Mini是一款專門針對文本任務設計的高效模型,有3.8億參數。它在語言理解和生成任務上的表現,比它的參數規模所預期的要好很多,甚至在某些方面能和更大的模型相提并論。
技術特點
Phi-4-Mini采用了32層Transformer結構,隱藏狀態大小設定為3,072,還引入了Group Query Attention(GQA)機制,這樣就能更好地處理長上下文信息。另外,分數RoPE維度的運用,也讓它在處理長序列時效率更高。
功能特點
輕量化設計:Phi-4-Mini模型專注于文本任務,參數量為38億。它采用了分組查詢注意力機制(GQA)和輸入/輸出嵌入綁定技術,優化了長上下文生成時的資源利用。
高效文本處理:在文本推理、數學計算、編程、指令遵循和函數調用等任務中,Phi-4-Mini表現優異,超越了多款流行的大型語言模型。
應用場景
移動應用:在手機APP中,Phi-4-Mini可以為用戶提供便捷的語言交互服務,快速回答關于景點信息、當地交通等問題。
物聯網設備:對于智能音箱等物聯網設備,Phi-4-Mini可以在本地設備上進行一些簡單的語音交互處理,減少對云端的依賴,提高響應速度和保護用戶隱私
性能表現
Phi-4-Mini雖然規模不大,但在推理、數學、編程等任務上,比同類的大型模型表現還要好,充分證明了它在特定任務上的高效性和準確性。
模型下載:https://huggingface.co/collections/microsoft/phi-4-677e9380e514feb5577a40e4