首頁 > Ai資訊 > Ai產品

微軟推出了兩款新模型：Phi-4-Multimodal多模態模型和Phi-4-Mini文本模型

映技派于2025-02-27發布在Ai產品

微軟近期推出了兩款新模型，分別是Phi-4-Multimodal和Phi-4-Mini。

這兩款模型雖然設計得比較小巧，但功能可不容小覷。Phi-4-Multimodal是微軟首個多模態模型，它能把語音、視覺和文本處理等功能集成在一起，參數量有56億。Phi-4-Mini則專注于文本任務，參數量為3.8億。這兩款模型都著重優化了在設備端以及邊緣計算平臺下的性能，能有效降低計算成本和延遲。

微軟推出了兩款新模型：Phi-4-Multimodal多模態型和Phi-4-Mini文本模型.webp

Phi-4-Multimodal

Phi-4-Multimodal是什么？

Phi-4-Multimodal是一款參數為5.6億的多模態模型，主要負責處理文本、視覺以及語音/音頻數據。它運用了一種叫LoRA（Low-Rank Adaptation）的創新技術，再搭配上特定模態的路由器，這樣就能在不擴大模型整體規模的前提下，很好地處理和推理多種模態的數據。

技術特點

Phi-4-Multimodal使用了SigLIP - 400M圖像編碼器和MLP投影器，能讓視覺信息與文本的表示空間相匹配。而且它還有動態多裁剪策略，不管是什么分辨率的圖像，都能處理得很不錯。在語音相關任務里，雖然語音/音頻模態的LoRA組件規模不大，但在OpenASR排行榜上，它的詞錯誤率（WER）達到了6.14%，排名第一，可見它在自動語音識別上的表現相當出色。

功能特點

多模態處理能力：Phi-4-Multimodal是微軟首款集成語音、視覺和文本處理的統一架構多模態語言模型，參數量達56億。它能夠處理多種類型的數據，例如文本、圖像、語音等，并將這些不同模態的信息融合起來，挖掘其中的關聯信息。
語音處理：在自動語音識別（ASR）和語音翻譯（ST）方面，Phi-4-Multimodal超越了WhisperV3和SeamlessM4T-v2-Large等專業語音模型，表現優異。
視覺處理：在文檔理解、圖表理解、光學字符識別（OCR）和視覺科學推理等任務中，Phi-4-Multimodal與Gemini-2-Flash-lite-preview和Claude-3.5-Sonnet等流行模型相媲美甚至超越。
文本處理：在文本推理、數學計算、編程、指令遵循和函數調用等任務中，Phi-4-Multimodal表現出色。

應用領域

Phi-4-Multimodal不光在視覺和語音任務中表現出色，在語音問答、文檔理解、光學字符識別以及科學推理等方面也很有競爭力。不過在一些知識密集型的問答上，它和更大規模的模型相比，可能稍微差一點。