微軟在人工智能領(lǐng)域再次邁出重要一步,正式推出了Phi-4家族的兩位新成員:Phi-4多模態(tài)(Phi-4-multimodal)與Phi-4迷你(Phi-4-mini)。這兩款模型在發(fā)布之初便引起了業(yè)界的廣泛關(guān)注。
Phi-4多模態(tài)模型是微軟在多模態(tài)語言模型領(lǐng)域的一次重大突破。它不僅集成了語音、視覺和文本處理能力,更以56億的參數(shù)量,在多項(xiàng)基準(zhǔn)測試中展現(xiàn)了卓越的性能。與谷歌的Gemini 2.0 Flash及其輕量化版本相比,Phi-4多模態(tài)在多個維度上均表現(xiàn)出色。
在語音處理方面,Phi-4多模態(tài)模型展現(xiàn)了其強(qiáng)大的實(shí)力。在自動語音識別(ASR)和語音翻譯(ST)任務(wù)中,它超越了WhisperV3和SeamlessM4T-v2-Large等專業(yè)模型,甚至在Hugging Face OpenASR排行榜上以6.14%的詞錯誤率奪得了榜首。這一成績無疑為Phi-4多模態(tài)模型在語音處理領(lǐng)域樹立了新的標(biāo)桿。
而在視覺處理方面,Phi-4多模態(tài)同樣不甘示弱。它在數(shù)學(xué)和科學(xué)推理方面表現(xiàn)出色,尤其在文檔理解、圖表理解、光學(xué)字符識別(OCR)以及視覺科學(xué)推理等常見多模態(tài)能力方面,與Gemini-2-Flash-lite-preview和Claude-3.5-Sonnet等流行模型相比,不僅毫不遜色,甚至在某些方面實(shí)現(xiàn)了超越。
與此同時,Phi-4迷你模型則以其專注于文本任務(wù)的特點(diǎn),吸引了大量開發(fā)者的關(guān)注。這款模型擁有38億的參數(shù)量,在文本推理、數(shù)學(xué)計算、編程、指令遵循以及函數(shù)調(diào)用等任務(wù)中均展現(xiàn)出了卓越的性能。與多款流行的大型語言模型相比,Phi-4迷你不僅在性能上毫不遜色,更在部署成本和效率上實(shí)現(xiàn)了顯著提升。
為了確保新模型的安全性和可靠性,微軟在推出Phi-4多模態(tài)和Phi-4迷你之前,進(jìn)行了大量的內(nèi)部和外部安全測試。同時,微軟還采用了人工智能紅隊(AIRT)制定的策略,對模型進(jìn)行了進(jìn)一步的優(yōu)化。經(jīng)過這些努力,Phi-4多模態(tài)和Phi-4迷你均成功通過了ONNX Runtime的部署測試,實(shí)現(xiàn)了跨平臺使用,適用于低成本和低延遲的場景。
目前,Phi-4多模態(tài)和Phi-4迷你模型已經(jīng)正式在Azure AI Foundry、Hugging Face以及NVIDIA API目錄中上線,供開發(fā)者使用。這兩款新模型的推出,不僅標(biāo)志著微軟在高效AI技術(shù)方面取得了重大進(jìn)步,更為各類人工智能應(yīng)用帶來了強(qiáng)大的多模態(tài)和文本處理能力。