我爱我色成人网,欧美日韩国产色,欧美亚视频在线中文字幕免费,亚洲国产影院

微軟推出了兩款新模型:Phi-4-Multimodal多模態模型和Phi-4-Mini文本模型

微軟近期推出了兩款新模型,分別是Phi-4-Multimodal和Phi-4-Mini。

這兩款模型雖然設計得比較小巧,但功能可不容小覷。Phi-4-Multimodal是微軟首個多模態模型,它能把語音、視覺和文本處理等功能集成在一起,參數量有56億。Phi-4-Mini則專注于文本任務,參數量為3.8億。這兩款模型都著重優化了在設備端以及邊緣計算平臺下的性能,能有效降低計算成本和延遲。

微軟推出了兩款新模型:Phi-4-Multimodal多模態型和Phi-4-Mini文本模型.webp

Phi-4-Multimodal

Phi-4-Multimodal是什么?

Phi-4-Multimodal是一款參數為5.6億的多模態模型,主要負責處理文本、視覺以及語音/音頻數據。它運用了一種叫LoRA(Low-Rank Adaptation)的創新技術,再搭配上特定模態的路由器,這樣就能在不擴大模型整體規模的前提下,很好地處理和推理多種模態的數據。

技術特點

Phi-4-Multimodal使用了SigLIP - 400M圖像編碼器和MLP投影器,能讓視覺信息與文本的表示空間相匹配。而且它還有動態多裁剪策略,不管是什么分辨率的圖像,都能處理得很不錯。在語音相關任務里,雖然語音/音頻模態的LoRA組件規模不大,但在OpenASR排行榜上,它的詞錯誤率(WER)達到了6.14%,排名第一,可見它在自動語音識別上的表現相當出色。

功能特點

  • 多模態處理能力:Phi-4-Multimodal是微軟首款集成語音、視覺和文本處理的統一架構多模態語言模型,參數量達56億。它能夠處理多種類型的數據,例如文本、圖像、語音等,并將這些不同模態的信息融合起來,挖掘其中的關聯信息。

  • 語音處理:在自動語音識別(ASR)和語音翻譯(ST)方面,Phi-4-Multimodal超越了WhisperV3和SeamlessM4T-v2-Large等專業語音模型,表現優異。

  • 視覺處理:在文檔理解、圖表理解、光學字符識別(OCR)和視覺科學推理等任務中,Phi-4-Multimodal與Gemini-2-Flash-lite-preview和Claude-3.5-Sonnet等流行模型相媲美甚至超越。

  • 文本處理:在文本推理、數學計算、編程、指令遵循和函數調用等任務中,Phi-4-Multimodal表現出色。

應用領域

Phi-4-Multimodal不光在視覺和語音任務中表現出色,在語音問答、文檔理解、光學字符識別以及科學推理等方面也很有競爭力。不過在一些知識密集型的問答上,它和更大規模的模型相比,可能稍微差一點。

  • 智能助手領域:在智能家居控制方面,Phi-4-Multimodal可以根據用戶的語音指令和室內攝像頭拍攝的畫面,更精準地執行任務。

  • 教育領域:對于在線教育中的多媒體學習資料,Phi-4-Multimodal可以分析視頻中的圖像、講解音頻對應的文本等,為學生提供更全面的學習輔助。

微軟推出了兩款新模型:Phi-4-Multimodal多模態型和Phi-4-Mini文本模型.webp

Phi-4-Mini

Phi-4-Mini是什么?

Phi-4-Mini是一款專門針對文本任務設計的高效模型,有3.8億參數。它在語言理解和生成任務上的表現,比它的參數規模所預期的要好很多,甚至在某些方面能和更大的模型相提并論。

技術特點

Phi-4-Mini采用了32層Transformer結構,隱藏狀態大小設定為3,072,還引入了Group Query Attention(GQA)機制,這樣就能更好地處理長上下文信息。另外,分數RoPE維度的運用,也讓它在處理長序列時效率更高。

功能特點

輕量化設計:Phi-4-Mini模型專注于文本任務,參數量為38億。它采用了分組查詢注意力機制(GQA)和輸入/輸出嵌入綁定技術,優化了長上下文生成時的資源利用。

高效文本處理:在文本推理、數學計算、編程、指令遵循和函數調用等任務中,Phi-4-Mini表現優異,超越了多款流行的大型語言模型。

應用場景

移動應用:在手機APP中,Phi-4-Mini可以為用戶提供便捷的語言交互服務,快速回答關于景點信息、當地交通等問題。

物聯網設備:對于智能音箱等物聯網設備,Phi-4-Mini可以在本地設備上進行一些簡單的語音交互處理,減少對云端的依賴,提高響應速度和保護用戶隱私

性能表現

Phi-4-Mini雖然規模不大,但在推理、數學、編程等任務上,比同類的大型模型表現還要好,充分證明了它在特定任務上的高效性和準確性。

模型下載:https://huggingface.co/collections/microsoft/phi-4-677e9380e514feb5577a40e4

收藏
最新工具
Quick Prompt
Quick Prompt

一個專注于提示詞(Prompt)的管理和快速輸入的瀏覽器擴展插件...

FoldNFly
FoldNFly

一個專注于紙飛機折疊教程的網站,提供豐富的紙飛機設計資源、制作指...

VoiceCanvas
VoiceCanvas

一款文本轉語音工具,支持 50 多種語言,具備語音克隆功能,僅需...

Loud Fame
Loud Fame

一款AI視頻生成和編輯工具,能夠將普通視頻轉換為具有動漫風格的視...

PPT世界
PPT世界

QIJ鰭跡旗下產品,集PPT模板下載、設計教程、交流社區和定制服...

職達AI簡歷
職達AI簡歷

一個專業的 AI 簡歷優化平臺,提供簡歷&求職一站式服務...

喵記多APP
喵記多APP

快手推出的邊聊天邊記錄的AI筆記,主要功能包括管理筆記,如剪藏、...

暢圖
暢圖

一款由摹客推出的AI原生可視化工具,專為個人和團隊的創意表達、知...

Ztalk ai
Ztalk ai

一個AI驅動的會議實時語音翻譯平臺,可以與 Zoom、Googl...

Supercut
Supercut

一款屏幕錄制工具,能幫你快速錄下屏幕上的內容,錄制的視頻可以自動...

主站蜘蛛池模板: 天祝| 盐津县| 丹东市| 荥阳市| 广汉市| 布拖县| 马鞍山市| 乡城县| 蒙城县| 抚顺市| 申扎县| 舒兰市| 榕江县| 沛县| 天等县| 金堂县| 中宁县| 台东县| 宝应县| 海盐县| 梁平县| 渝中区| 司法| 遂宁市| 桓台县| 鲁山县| 万年县| 启东市| 麻江县| 廊坊市| 六枝特区| 闽清县| 化州市| 武功县| 盘山县| 阜南县| 五指山市| 东安县| 富宁县| 通江县| 宁津县|