一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

蘋果發(fā)布研究論文:揭示Ferret-UI AI系統,破解MLLMs移動應用理解難題

微云疏影 ? 來源:綜合整理 ? 作者:綜合整理 ? 2024-04-10 10:17 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

據悉,Apple近期發(fā)表了有關于Ferret-UI AI系統的研究論文,這款新型AI系統可理解應用程序屏幕上的內容。

目前圍繞人工智能(AI)技術,出現了如ChatGPT這樣的大語言模型(LLMs),這些模型擅長處理文本資料。然而,對于像圖片、視頻和聲音等多媒體類型的非文本n內容,就需要擴大AI模型的適用范圍,相應地,多模態(tài)大語言模型(MLLMs)也就應運而生。

盡管MLLMs已表現出對移動應用程序的理解不足,具體表現在以下幾點:

首先,智能手機屏幕的寬高比和大多數訓練視覺模型所使用的比例不同;其次,MLLMs需要識別出較小的圖標和按鈕。

針對以上問題,Apple提出了名為“Ferret-UI”的MLLM系統,以應對這些挑戰(zhàn)。系統通過引入WMDR(任意分辨率),提升模型在處理用戶界面任務時的辨識度,使其能更好地識別和理解小圖標、文字等元素。

此外,我們專門采集了大量與初級用戶界面任務相關的樣本,包括圖標識別、文本查找和小部件列表等。所有樣本均按照區(qū)域注釋指令進行設計,以便于精確解釋和實用化。

為了提高模型的認知水平,我們進一步定制了高級任務數據集,含括詳細描寫、感官/互交互對話及功能推理等方面。

該項研究表明,與現行的GPT-4V以及其他MLLMs模型相比,Ferret-UI AI模型具有顯著優(yōu)勢。

審核編輯 黃宇

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯系本站處理。 舉報投訴
  • 人工智能
    +關注

    關注

    1806

    文章

    49016

    瀏覽量

    249461
  • 語言模型
    +關注

    關注

    0

    文章

    561

    瀏覽量

    10788
  • ChatGPT
    +關注

    關注

    29

    文章

    1589

    瀏覽量

    9100
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    【「零基礎開發(fā)AI Agent」閱讀體驗】+Agent的案例解讀

    、AI助手等功能,大大提升了古籍整理與研究利用的效率。? 業(yè)務特色? 在引入扣子前,識典古籍在古籍數字化過程中面臨以下的挑戰(zhàn):? 1)內容理解難度高 古籍語言復雜晦澀,使普通用戶往往望而卻步,平臺
    發(fā)表于 05-14 11:23

    高校宿舍改造指南:智能水電計費系統如何破解管理難題?

    安科瑞解決方案,校園管理難題一應俱全,全方位破解。采用智能硬件+云平臺,實現高效管理閉環(huán)精準計量,安全防控,一鍵拉合閘,多支付,后付費模式,能耗分析,賦能綠色校園實時監(jiān)測,成功案例,降低管理難度,提高學生滿意度。
    的頭像 發(fā)表于 04-25 16:30 ?288次閱讀
    高校宿舍改造指南:智能水電計費<b class='flag-5'>系統</b>如何<b class='flag-5'>破解</b>管理<b class='flag-5'>難題</b>?

    企業(yè)通過AI技術定制提升營業(yè)收入

    生成式AI技術正在重塑我們的生活場景,而商業(yè)戰(zhàn)場上已掀起AI定制的浪潮。MIT最新報告揭示,50%企業(yè)通過AI定制實現效率躍升,49%借此構筑競爭壁壘,但數據隱私與人才缺口等仍是最大挑
    的頭像 發(fā)表于 04-16 12:48 ?460次閱讀

    美報告:中國芯片研究論文全球領先

    據新華社報道,美國喬治敦大學“新興技術觀察項目(ETO)”3日在其網站發(fā)布一份報告說,2018年至2023年間,在全球發(fā)表的芯片設計和制造相關論文中,中國研究人員的論文數量遠超其他國家
    的頭像 發(fā)表于 03-05 14:32 ?1106次閱讀

    AI Agent 應用與項目實戰(zhàn)》閱讀心得2——客服機器人、AutoGen框架 、生成式代理

    關系,這種表示方法使得代理能夠更好地理解和預測環(huán)境變化。項目的評估結果表明,具備記憶和反思能力的代理在長期交互任務中表現出了更好的適應性和學習能力,這對未來AI系統的設計具有重要的啟發(fā)意義。 總的來說
    發(fā)表于 02-25 21:59

    中興通訊AiCube:破解AI模型部署難題

    ,成為制約技術價值釋放的新痛點。 異構算力適配困難、算力資源利用率低以及數據安全風險高等問題,讓許多企業(yè)在AI技術的實際應用中遇到了瓶頸。這些問題不僅增加了部署的難度,還可能導致資源的浪費和潛在的安全威脅。 為了破解這一難題,中
    的頭像 發(fā)表于 02-13 09:11 ?568次閱讀

    Qt Group發(fā)布Qt AI Assistant,助力跨平臺UI開發(fā)

    為了進一步提升跨平臺用戶界面(UI)開發(fā)的效率與便捷性,Qt Group近日推出了一款實驗性工具——Qt AI Assistant。這款工具的問世,標志著Qt Group在簡化UI開發(fā)流程、減少
    的頭像 發(fā)表于 02-07 13:47 ?1133次閱讀

    華為懸賞300萬元求解難題 牽引全球數據存儲領域基礎理論研究方向

    華為奧林帕斯獎獎金池高達3百萬,設置有2個奧林帕斯獎,獎金各100萬元;5個奧林帕斯先鋒獎,獎金各20萬元。 難題1:每bit極致性價比的存儲技術 AI應用的普及,引發(fā)存儲數據量激增且長期留存,冷數據呈現向溫數據轉變的趨勢,研究
    的頭像 發(fā)表于 12-30 17:50 ?932次閱讀

    電線EMC電磁兼容性測試整改:破解電磁干擾的難題

    深圳南柯電子|電線EMC電磁兼容性測試整改:破解電磁干擾的難題
    的頭像 發(fā)表于 12-11 11:19 ?827次閱讀
    電線EMC電磁兼容性測試整改:<b class='flag-5'>破解</b>電磁干擾的<b class='flag-5'>難題</b>

    利用VLM和MLLMs實現SLAM語義增強

    語義同步定位與建圖(SLAM)系統在對鄰近的語義相似物體進行建圖時面臨困境,特別是在復雜的室內環(huán)境中。本文提出了一種面向對象SLAM的語義增強(SEO-SLAM)的新型SLAM系統,借助視覺語言模型
    的頭像 發(fā)表于 12-05 10:00 ?1377次閱讀
    利用VLM和<b class='flag-5'>MLLMs</b>實現SLAM語義增強

    AI for Science:人工智能驅動科學創(chuàng)新》第4章-AI與生命科學讀后感

    了傳統學科界限,使得科學家們能夠從更加全面和深入的角度理解生命的奧秘。同時,AI技術的引入也催生了一種全新的科學研究范式,即數據驅動的研究范式,這種范式強調從大量數據中提取有價值的信息
    發(fā)表于 10-14 09:21

    破解大面積場景清潔難題,普渡推出AI智能掃地機器人PUDU MT1

    破解大面積場景清潔難題,普渡推出AI智能掃地機器人PUDU MT1 9月10日,全球服務機器人領導者普渡機器人發(fā)布了全新AI智能掃地機器人,
    的頭像 發(fā)表于 09-12 14:37 ?805次閱讀

    蘋果AI模型訓練新動向:攜手谷歌,未選英偉達

    近日,蘋果公司發(fā)布的最新研究報告揭示了其在人工智能領域的又一重要戰(zhàn)略選擇——采用谷歌設計的芯片來訓練其AI模型,而非行業(yè)巨頭英偉達的產品。這
    的頭像 發(fā)表于 08-01 18:11 ?1144次閱讀

    蘋果承認使用谷歌芯片來訓練AI

    蘋果公司最近在一篇技術論文中披露,其先進的人工智能系統Apple Intelligence背后的兩個關鍵AI模型,是在谷歌設計的云端芯片上完成預訓練的。這一消息標志著在尖端
    的頭像 發(fā)表于 07-30 17:03 ?917次閱讀

    蘋果揭示AI新動向:Apple Intelligence模型在谷歌云端芯片上預訓練

    蘋果公司在最新的技術論文中披露了一項重要信息,其全新的人工智能系統Apple Intelligence所依賴的模型并非傳統上大型科技公司首選的NVIDIA GPU,而是選擇了在谷歌設計的云端芯片上進行預訓練。這一決定不僅打破了行
    的頭像 發(fā)表于 07-30 15:00 ?847次閱讀