蘋果發(fā)布研究論文：揭示Ferret-UI AI系統，破解MLLMs移動應用理解難題

據悉，Apple近期發(fā)表了有關于Ferret-UI AI系統的研究論文，這款新型AI系統可理解應用程序屏幕上的內容。

目前圍繞人工智能（AI）技術，出現了如ChatGPT這樣的大語言模型（LLMs），這些模型擅長處理文本資料。然而，對于像圖片、視頻和聲音等多媒體類型的非文本n內容，就需要擴大AI模型的適用范圍，相應地，多模態(tài)大語言模型（MLLMs）也就應運而生。

盡管MLLMs已表現出對移動應用程序的理解不足，具體表現在以下幾點：

首先，智能手機屏幕的寬高比和大多數訓練視覺模型所使用的比例不同；其次，MLLMs需要識別出較小的圖標和按鈕。

針對以上問題，Apple提出了名為“Ferret-UI”的MLLM系統，以應對這些挑戰(zhàn)。系統通過引入WMDR（任意分辨率），提升模型在處理用戶界面任務時的辨識度，使其能更好地識別和理解小圖標、文字等元素。

此外，我們專門采集了大量與初級用戶界面任務相關的樣本，包括圖標識別、文本查找和小部件列表等。所有樣本均按照區(qū)域注釋指令進行設計，以便于精確解釋和實用化。

為了提高模型的認知水平，我們進一步定制了高級任務數據集，含括詳細描寫、感官/互交互對話及功能推理等方面。

該項研究表明，與現行的GPT-4V以及其他MLLMs模型相比，Ferret-UI AI模型具有顯著優(yōu)勢。

審核編輯黃宇

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規(guī)問題，請聯系本站處理。舉報投訴

一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品