2 月 27 日消息,微軟于 2024 年 12 月發布了 Phi-4,這是一款在同類產品中表現卓越的小型語言模型(SLM)。今日,微軟進一步擴展 Phi-4 家族,推出了兩款全新模型:Phi-4 多模態(Phi-4-multimodal)和 Phi-4 迷你(Phi-4-mini)。
Phi-4 多模態模型是微軟首款集成語音、視覺和文本處理的統一架構多模態語言模型,參數量達 56 億。在多項基準測試中,Phi-4 多模態的表現優于其他現有的先進全模態模型,例如谷歌的 Gemini 2.0 Flash 和 Gemini 2.0 Flash Lite。
在語音相關任務中,Phi-4 多模態在自動語音識別(ASR)和語音翻譯(ST)方面超越了 WhisperV3 和 SeamlessM4T-v2-Large 等專業語音模型。微軟表示,該模型在 Hugging Face OpenASR 排行榜上以 6.14% 的詞錯誤率位居榜首。
在視覺相關任務中,Phi-4 多模態在數學和科學推理方面表現出色。在文檔理解、圖表理解、光學字符識別(OCR)和視覺科學推理等常見多模態能力方面,該模型與 Gemini-2-Flash-lite-preview 和 Claude-3.5-Sonnet 等流行模型相媲美甚至超越。
注意到,Phi-4 迷你模型則專注于文本任務,參數量為 38 億。其在文本推理、數學計算、編程、指令遵循和函數調用等任務中表現優異,超越了多款流行的大型語言模型。
為確保新模型的安全性和可靠性,微軟邀請了內部和外部安全專家進行測試,并采用了微軟人工智能紅隊(AIRT)制定的策略。經過進一步優化后,Phi-4 迷你和 Phi-4 多模態模型均可通過 ONNX Runtime 部署到設備端,實現跨平臺使用,適用于低成本和低延遲場景。
目前,Phi-4 多模態和 Phi-4 迷你模型已在 Azure AI Foundry、Hugging Face 和 NVIDIA API 目錄中上線,供開發者使用。
Phi-4 系列新模型的推出,標志著高效 AI 技術的重大進步,為各類人工智能應用帶來了強大的多模態和文本處理能力。
本文鏈接:http://www.tebozhan.com/showinfo-45-11226-0.html微軟 Phi-4 多模態及迷你模型上線,語音視覺文本全能
聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com