5 月 28 日,微軟在 Build 2024 大會上推出了最新的 Phi-3 系列成員——Phi-3-vision。這一工具主打視覺應(yīng)用,能有效處理圖片文字信息,且在移動設(shè)備上也能運(yùn)行自如。
Phi-3-vision 是一種小型多模式語言模型(SLM),主要適用于本地人工智能場景。其模型參數(shù)高達(dá) 42 億,上下文序列包含 128k 個符號,可滿足各種視覺推理和其他任務(wù)需求。
Microsoft 通過一篇新發(fā)表的論文[PDF]展示了 Phi-3-vision 的強(qiáng)大實(shí)力。與其他模型如 Claude 3-haiku、Gemini 1.0 Pro 相比,Phi-3-vision 毫不遜色。
此外,Microsoft 還對 Phi-3-vision 進(jìn)行了多項(xiàng)測試,并將其與其他競品模型進(jìn)行了比較,包括字節(jié)跳動的 Llama3-Llava-Next(8B)、微軟研究院與威斯康星大學(xué)、哥倫比亞大學(xué)聯(lián)合開發(fā)的 LlaVA-1.6(7B)以及阿里巴巴通義千問 QWEN-VL-Chat 模型等。結(jié)果表明,Phi-3-vision 在多個項(xiàng)目中的表現(xiàn)均十分出色。
-
微軟
+關(guān)注
關(guān)注
4文章
6686瀏覽量
105794 -
人工智能
+關(guān)注
關(guān)注
1807文章
49035瀏覽量
249775 -
語言模型
+關(guān)注
關(guān)注
0文章
561瀏覽量
10802
發(fā)布評論請先 登錄
日本航空攜手微軟率先將AI應(yīng)用引入客艙管理
DevEco Studio AI輔助開發(fā)工具兩大升級功能 鴻蒙應(yīng)用開發(fā)效率再提升
首創(chuàng)開源架構(gòu),天璣AI開發(fā)套件讓端側(cè)AI模型接入得心應(yīng)手
添越智創(chuàng)基于 RK3588 開發(fā)板部署測試 DeepSeek 模型全攻略
字節(jié)跳動發(fā)布豆包大模型1.5 Pro
在算力魔方上本地部署Phi-4模型

虹軟AI視覺賦能雷鳥V3 AI拍攝眼鏡發(fā)布
三星發(fā)布Vision AI及Neo QLED旗艦電視
微軟尋求在365 Copilot中引入非OpenAI模型
Meta發(fā)布新AI模型Meta Motivo,旨在提升元宇宙體驗(yàn)
微軟預(yù)覽版Copilot Vision AI功能上線
AI干貨補(bǔ)給站04 | 工業(yè)AI視覺檢測項(xiàng)目實(shí)施第三步:模型構(gòu)建

用Ollama輕松搞定Llama 3.2 Vision模型本地部署

微軟發(fā)布Azure AI Foundry,推動云服務(wù)增長
在英特爾酷睿Ultra7處理器上優(yōu)化和部署Phi-3-min模型

評論