我爱我色成人网,欧美日韩国产色,欧美亚视频在线中文字幕免费,亚洲国产影院

微軟推出了兩款新模型:Phi-4-Multimodal多模態模型和Phi-4-Mini文本模型

微軟近期推出了兩款新模型,分別是Phi-4-Multimodal和Phi-4-Mini。

這兩款模型雖然設計得比較小巧,但功能可不容小覷。Phi-4-Multimodal是微軟首個多模態模型,它能把語音、視覺和文本處理等功能集成在一起,參數量有56億。Phi-4-Mini則專注于文本任務,參數量為3.8億。這兩款模型都著重優化了在設備端以及邊緣計算平臺下的性能,能有效降低計算成本和延遲。

微軟推出了兩款新模型:Phi-4-Multimodal多模態型和Phi-4-Mini文本模型.webp

Phi-4-Multimodal

Phi-4-Multimodal是什么?

Phi-4-Multimodal是一款參數為5.6億的多模態模型,主要負責處理文本、視覺以及語音/音頻數據。它運用了一種叫LoRA(Low-Rank Adaptation)的創新技術,再搭配上特定模態的路由器,這樣就能在不擴大模型整體規模的前提下,很好地處理和推理多種模態的數據。

技術特點

Phi-4-Multimodal使用了SigLIP - 400M圖像編碼器和MLP投影器,能讓視覺信息與文本的表示空間相匹配。而且它還有動態多裁剪策略,不管是什么分辨率的圖像,都能處理得很不錯。在語音相關任務里,雖然語音/音頻模態的LoRA組件規模不大,但在OpenASR排行榜上,它的詞錯誤率(WER)達到了6.14%,排名第一,可見它在自動語音識別上的表現相當出色。

功能特點

  • 多模態處理能力:Phi-4-Multimodal是微軟首款集成語音、視覺和文本處理的統一架構多模態語言模型,參數量達56億。它能夠處理多種類型的數據,例如文本、圖像、語音等,并將這些不同模態的信息融合起來,挖掘其中的關聯信息。

  • 語音處理:在自動語音識別(ASR)和語音翻譯(ST)方面,Phi-4-Multimodal超越了WhisperV3和SeamlessM4T-v2-Large等專業語音模型,表現優異。

  • 視覺處理:在文檔理解、圖表理解、光學字符識別(OCR)和視覺科學推理等任務中,Phi-4-Multimodal與Gemini-2-Flash-lite-preview和Claude-3.5-Sonnet等流行模型相媲美甚至超越。

  • 文本處理:在文本推理、數學計算、編程、指令遵循和函數調用等任務中,Phi-4-Multimodal表現出色。

應用領域

Phi-4-Multimodal不光在視覺和語音任務中表現出色,在語音問答、文檔理解、光學字符識別以及科學推理等方面也很有競爭力。不過在一些知識密集型的問答上,它和更大規模的模型相比,可能稍微差一點。

  • 智能助手領域:在智能家居控制方面,Phi-4-Multimodal可以根據用戶的語音指令和室內攝像頭拍攝的畫面,更精準地執行任務。

  • 教育領域:對于在線教育中的多媒體學習資料,Phi-4-Multimodal可以分析視頻中的圖像、講解音頻對應的文本等,為學生提供更全面的學習輔助。

微軟推出了兩款新模型:Phi-4-Multimodal多模態型和Phi-4-Mini文本模型.webp

Phi-4-Mini

Phi-4-Mini是什么?

Phi-4-Mini是一款專門針對文本任務設計的高效模型,有3.8億參數。它在語言理解和生成任務上的表現,比它的參數規模所預期的要好很多,甚至在某些方面能和更大的模型相提并論。

技術特點

Phi-4-Mini采用了32層Transformer結構,隱藏狀態大小設定為3,072,還引入了Group Query Attention(GQA)機制,這樣就能更好地處理長上下文信息。另外,分數RoPE維度的運用,也讓它在處理長序列時效率更高。

功能特點

輕量化設計:Phi-4-Mini模型專注于文本任務,參數量為38億。它采用了分組查詢注意力機制(GQA)和輸入/輸出嵌入綁定技術,優化了長上下文生成時的資源利用。

高效文本處理:在文本推理、數學計算、編程、指令遵循和函數調用等任務中,Phi-4-Mini表現優異,超越了多款流行的大型語言模型。

應用場景

移動應用:在手機APP中,Phi-4-Mini可以為用戶提供便捷的語言交互服務,快速回答關于景點信息、當地交通等問題。

物聯網設備:對于智能音箱等物聯網設備,Phi-4-Mini可以在本地設備上進行一些簡單的語音交互處理,減少對云端的依賴,提高響應速度和保護用戶隱私

性能表現

Phi-4-Mini雖然規模不大,但在推理、數學、編程等任務上,比同類的大型模型表現還要好,充分證明了它在特定任務上的高效性和準確性。

模型下載:https://huggingface.co/collections/microsoft/phi-4-677e9380e514feb5577a40e4

收藏
最新工具
Clideo
Clideo

一個提供多種視頻編輯及相關工具的平臺,有添加字幕、壓縮視頻、剪輯...

68愛寫
68愛寫

高質量原創AI論文寫作工具,真實文獻,無限改稿!,能支持多種論文...

LiYing
LiYing

一款證件照AI自動化處理神器,用于自動化處理證件照的程序,可在本...

框框大學
框框大學

復旦大學博士、站長“取景框看世界”創辦、程序員魚皮技術支持的專業...

ToePub
ToePub

一款免費的電子書格式轉換工具,能把 PDF 等文檔轉成 EPUB...

MusicCreator AI
MusicCreator AI

免費的AI音樂歌詞生成器,有歌詞轉音樂等功能,還有AI音軌分離、...

Lufe AI
Lufe AI

不錯的多合一翻譯工具,用了 Gemini、OpenAI、Clau...

SeatMaps
SeatMaps

為各航空公司提供準確的座位圖和可視化信息數據,平臺整合專業航空數...

書簽地球
書簽地球

一個能分享、管理和發現書簽的平臺,能在線做書簽,也支持導入導出、...

Atypica AI
Atypica AI

特贊科技推出的商業研究AI多智能體,只要是通過模擬真實消費者行為...

主站蜘蛛池模板: 抚宁县| 博兴县| 大田县| 镇康县| 霍州市| 静海县| 资中县| 菏泽市| 什邡市| 泸西县| 赞皇县| 峡江县| 雅安市| 灵寿县| 弥渡县| 项城市| 南充市| 黎城县| 堆龙德庆县| 永康市| 旅游| 瑞丽市| 牡丹江市| 兴安盟| 通江县| 宜州市| 岱山县| 阳西县| 合江县| 靖西县| 靖州| 胶南市| 介休市| 丰县| 天津市| 吉林省| 东莞市| 水富县| 葵青区| 任丘市| 肥乡县|