我爱我色成人网,欧美日韩国产色,欧美亚视频在线中文字幕免费,亚洲国产影院

微軟推出了兩款新模型:Phi-4-Multimodal多模態模型和Phi-4-Mini文本模型

微軟近期推出了兩款新模型,分別是Phi-4-Multimodal和Phi-4-Mini。

這兩款模型雖然設計得比較小巧,但功能可不容小覷。Phi-4-Multimodal是微軟首個多模態模型,它能把語音、視覺和文本處理等功能集成在一起,參數量有56億。Phi-4-Mini則專注于文本任務,參數量為3.8億。這兩款模型都著重優化了在設備端以及邊緣計算平臺下的性能,能有效降低計算成本和延遲。

微軟推出了兩款新模型:Phi-4-Multimodal多模態型和Phi-4-Mini文本模型.webp

Phi-4-Multimodal

Phi-4-Multimodal是什么?

Phi-4-Multimodal是一款參數為5.6億的多模態模型,主要負責處理文本、視覺以及語音/音頻數據。它運用了一種叫LoRA(Low-Rank Adaptation)的創新技術,再搭配上特定模態的路由器,這樣就能在不擴大模型整體規模的前提下,很好地處理和推理多種模態的數據。

技術特點

Phi-4-Multimodal使用了SigLIP - 400M圖像編碼器和MLP投影器,能讓視覺信息與文本的表示空間相匹配。而且它還有動態多裁剪策略,不管是什么分辨率的圖像,都能處理得很不錯。在語音相關任務里,雖然語音/音頻模態的LoRA組件規模不大,但在OpenASR排行榜上,它的詞錯誤率(WER)達到了6.14%,排名第一,可見它在自動語音識別上的表現相當出色。

功能特點

  • 多模態處理能力:Phi-4-Multimodal是微軟首款集成語音、視覺和文本處理的統一架構多模態語言模型,參數量達56億。它能夠處理多種類型的數據,例如文本、圖像、語音等,并將這些不同模態的信息融合起來,挖掘其中的關聯信息。

  • 語音處理:在自動語音識別(ASR)和語音翻譯(ST)方面,Phi-4-Multimodal超越了WhisperV3和SeamlessM4T-v2-Large等專業語音模型,表現優異。

  • 視覺處理:在文檔理解、圖表理解、光學字符識別(OCR)和視覺科學推理等任務中,Phi-4-Multimodal與Gemini-2-Flash-lite-preview和Claude-3.5-Sonnet等流行模型相媲美甚至超越。

  • 文本處理:在文本推理、數學計算、編程、指令遵循和函數調用等任務中,Phi-4-Multimodal表現出色。

應用領域

Phi-4-Multimodal不光在視覺和語音任務中表現出色,在語音問答、文檔理解、光學字符識別以及科學推理等方面也很有競爭力。不過在一些知識密集型的問答上,它和更大規模的模型相比,可能稍微差一點。

  • 智能助手領域:在智能家居控制方面,Phi-4-Multimodal可以根據用戶的語音指令和室內攝像頭拍攝的畫面,更精準地執行任務。

  • 教育領域:對于在線教育中的多媒體學習資料,Phi-4-Multimodal可以分析視頻中的圖像、講解音頻對應的文本等,為學生提供更全面的學習輔助。

微軟推出了兩款新模型:Phi-4-Multimodal多模態型和Phi-4-Mini文本模型.webp

Phi-4-Mini

Phi-4-Mini是什么?

Phi-4-Mini是一款專門針對文本任務設計的高效模型,有3.8億參數。它在語言理解和生成任務上的表現,比它的參數規模所預期的要好很多,甚至在某些方面能和更大的模型相提并論。

技術特點

Phi-4-Mini采用了32層Transformer結構,隱藏狀態大小設定為3,072,還引入了Group Query Attention(GQA)機制,這樣就能更好地處理長上下文信息。另外,分數RoPE維度的運用,也讓它在處理長序列時效率更高。

功能特點

輕量化設計:Phi-4-Mini模型專注于文本任務,參數量為38億。它采用了分組查詢注意力機制(GQA)和輸入/輸出嵌入綁定技術,優化了長上下文生成時的資源利用。

高效文本處理:在文本推理、數學計算、編程、指令遵循和函數調用等任務中,Phi-4-Mini表現優異,超越了多款流行的大型語言模型。

應用場景

移動應用:在手機APP中,Phi-4-Mini可以為用戶提供便捷的語言交互服務,快速回答關于景點信息、當地交通等問題。

物聯網設備:對于智能音箱等物聯網設備,Phi-4-Mini可以在本地設備上進行一些簡單的語音交互處理,減少對云端的依賴,提高響應速度和保護用戶隱私

性能表現

Phi-4-Mini雖然規模不大,但在推理、數學、編程等任務上,比同類的大型模型表現還要好,充分證明了它在特定任務上的高效性和準確性。

模型下載:https://huggingface.co/collections/microsoft/phi-4-677e9380e514feb5577a40e4

收藏
最新工具
AiPose AI
AiPose AI

一個全能型AI圖像與視頻創作平臺,支持用文字生成圖片、文字生成視...

TheUselessWeb
TheUselessWeb

澳大利亞開發者Tim Holman做的網站,它的核心功能是點一下...

Shell Shockers
Shell Shockers

一款多人在線的第一人稱射擊游戲,玩家操控各種“武裝雞蛋”在競技場...

Sheet0
Sheet0

一個L4級 Data Agent工具,用戶只需輸入需求指令,系統...

DrFonts
DrFonts

一個AI字體生成工具,它能把手寫的PNG圖片,比如紙上的字稿,自...

Coding Adventure
Coding Adventure

一個面向小學三年級到初中學生的游戲化編程學習平臺。學生用真實編程...

Vert.sh
Vert.sh

一款完全免費、開源的文件轉換工具,支持圖片、音頻、文檔的本地處理...

Windrecorder
Windrecorder

捕風記錄儀,一款開源的屏幕錄制與檢索工具,它記錄屏幕內容來實現記...

Custom Cursor
Custom Cursor

一個能讓你擁有個性化光標的網站。Custom Cursor網站有...

橙子8設計
橙子8設計

一站式AI電商圖片制作平臺,專為電商和跨境賣家服務。不用專業設計...

主站蜘蛛池模板: 武邑县| 林口县| 郁南县| 绵竹市| 抚顺县| 石楼县| 综艺| 文登市| 清丰县| 太仓市| 西藏| 敦煌市| 白银市| 昌宁县| 盐津县| 江源县| 视频| 宁河县| 凉山| 杨浦区| 乌拉特后旗| 乌恰县| 娄烦县| 菏泽市| 凤山县| 康保县| 贡觉县| 盐城市| 阿勒泰市| 德钦县| 建德市| 肥乡县| 托里县| 民权县| 乡宁县| 海丰县| 桓仁| 云浮市| 林周县| 五家渠市| 获嘉县|