微軟發(fā)布視覺型AI新模型：Phi-3-vision

5 月 26 日消息，微軟近期推出其小語言 AI 模型新成員“Phi-3-vision”，以卓越的“視覺”處理能力著稱，能夠深度解析圖文信息并在移動設(shè)備上穩(wěn)定運(yùn)行。

據(jù)悉，Phi-3-vision 作為微軟 Phi-3 家族的首款多模態(tài)模型，繼承自 Phi-3-mini 的文本理解能力，兼具輕巧便攜特性，適用于移動平臺/嵌入式終端；模型參數(shù)規(guī)模達(dá) 42 億，遠(yuǎn)超 Phi-3-mini（3.8B），略遜于 Phi-3-small（7B），上下文長度為 128k token，訓(xùn)練時間跨度為 2024 年 2 月至 4 月。

值得關(guān)注的是，Phi-3-vision 模型的核心優(yōu)勢在于其強(qiáng)大的“圖文識別”功能，能夠準(zhǔn)確理解現(xiàn)實(shí)世界圖像的內(nèi)涵，迅速識別并提取圖片中的文字信息。

微軟強(qiáng)調(diào)，Phi-3-vision 尤其適用于辦公場景，開發(fā)者針對圖表和方塊圖（Block diagram）識別進(jìn)行了專門優(yōu)化，使其能夠根據(jù)用戶輸入信息進(jìn)行推理，并生成一系列決策建議，為企業(yè)提供戰(zhàn)略參考，被譽(yù)為“媲美大型模型”的效果。

在模型訓(xùn)練環(huán)節(jié)，微軟表示 Phi-3-vision 采用了“多元化圖片與文字?jǐn)?shù)據(jù)”進(jìn)行訓(xùn)練，涵蓋了一系列“精選的公共內(nèi)容”，如“教科書級”教育素材、代碼、圖文標(biāo)注數(shù)據(jù)、現(xiàn)實(shí)世界知識、圖表圖片、聊天記錄等，以保證模型輸入內(nèi)容的豐富性。此外，微軟承諾所用訓(xùn)練數(shù)據(jù)“可追溯”且不含任何個人信息，充分保障用戶隱私。

在性能對比方面，微軟提供了 Phi-3-vision 與字節(jié)跳動 Llama3-Llava-Next（8B）、微軟研究院與威斯康星大學(xué)、哥倫比亞大學(xué)聯(lián)合研發(fā)的 LlaVA-1.6（7B）以及阿里巴巴通義千問 QWEN-VL-Chat 模型等競品的對比圖表，展示了 Phi-3-vision 在多項(xiàng)測試中的優(yōu)秀表現(xiàn)。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

微軟

微軟

+關(guān)注

關(guān)注
4

文章
6686

瀏覽量
105760
AI

AI

+關(guān)注

關(guān)注
88

文章
35164

瀏覽量
279884
模型

模型

+關(guān)注

關(guān)注
1

文章
3521

瀏覽量
50423

一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

搜索歷史

微軟發(fā)布視覺型AI新模型：Phi-3-vision

評論