5 月 26 日消息,微軟近期推出其小語言 AI 模型新成員“Phi-3-vision”,以卓越的“視覺”處理能力著稱,能夠深度解析圖文信息并在移動設(shè)備上穩(wěn)定運(yùn)行。
據(jù)悉,Phi-3-vision 作為微軟 Phi-3 家族的首款多模態(tài)模型,繼承自 Phi-3-mini 的文本理解能力,兼具輕巧便攜特性,適用于移動平臺/嵌入式終端;模型參數(shù)規(guī)模達(dá) 42 億,遠(yuǎn)超 Phi-3-mini(3.8B),略遜于 Phi-3-small(7B),上下文長度為 128k token,訓(xùn)練時間跨度為 2024 年 2 月至 4 月。
值得關(guān)注的是,Phi-3-vision 模型的核心優(yōu)勢在于其強(qiáng)大的“圖文識別”功能,能夠準(zhǔn)確理解現(xiàn)實(shí)世界圖像的內(nèi)涵,迅速識別并提取圖片中的文字信息。
微軟強(qiáng)調(diào),Phi-3-vision 尤其適用于辦公場景,開發(fā)者針對圖表和方塊圖(Block diagram)識別進(jìn)行了專門優(yōu)化,使其能夠根據(jù)用戶輸入信息進(jìn)行推理,并生成一系列決策建議,為企業(yè)提供戰(zhàn)略參考,被譽(yù)為“媲美大型模型”的效果。
在模型訓(xùn)練環(huán)節(jié),微軟表示 Phi-3-vision 采用了“多元化圖片與文字?jǐn)?shù)據(jù)”進(jìn)行訓(xùn)練,涵蓋了一系列“精選的公共內(nèi)容”,如“教科書級”教育素材、代碼、圖文標(biāo)注數(shù)據(jù)、現(xiàn)實(shí)世界知識、圖表圖片、聊天記錄等,以保證模型輸入內(nèi)容的豐富性。此外,微軟承諾所用訓(xùn)練數(shù)據(jù)“可追溯”且不含任何個人信息,充分保障用戶隱私。
在性能對比方面,微軟提供了 Phi-3-vision 與字節(jié)跳動 Llama3-Llava-Next(8B)、微軟研究院與威斯康星大學(xué)、哥倫比亞大學(xué)聯(lián)合研發(fā)的 LlaVA-1.6(7B)以及阿里巴巴通義千問 QWEN-VL-Chat 模型等競品的對比圖表,展示了 Phi-3-vision 在多項(xiàng)測試中的優(yōu)秀表現(xiàn)。
-
微軟
+關(guān)注
關(guān)注
4文章
6686瀏覽量
105760 -
AI
+關(guān)注
關(guān)注
88文章
35164瀏覽量
279884 -
模型
+關(guān)注
關(guān)注
1文章
3521瀏覽量
50423
發(fā)布評論請先 登錄
日本航空攜手微軟率先將AI應(yīng)用引入客艙管理
Banana Pi 發(fā)布 BPI-AI2N & BPI-AI2N Carrier,助力 AI 計算與嵌入式開發(fā)
IBM發(fā)布全新Granite 3.2 AI模型
字節(jié)跳動發(fā)布豆包大模型1.5 Pro
在算力魔方上本地部署Phi-4模型

三星發(fā)布Vision AI,打造個性化AI屏幕體驗(yàn)
三星發(fā)布Vision AI等多項(xiàng)創(chuàng)新
虹軟AI視覺賦能雷鳥V3 AI拍攝眼鏡發(fā)布
三星發(fā)布Vision AI及Neo QLED旗艦電視
LabVIEW使用Vision視覺進(jìn)行硬幣分類計數(shù)
微軟尋求在365 Copilot中引入非OpenAI模型
微軟預(yù)覽版Copilot Vision AI功能上線
用Ollama輕松搞定Llama 3.2 Vision模型本地部署

微軟發(fā)布Azure AI Foundry,推動云服務(wù)增長
在英特爾酷睿Ultra7處理器上優(yōu)化和部署Phi-3-min模型

評論