近日,微軟官網(wǎng)宣布了一項(xiàng)重要更新。微軟發(fā)布了其視覺Agent解析框架OmniParser的最新版本V2。這一新版本具備將包括OpenAI的4o、o1、o3-mini,DeepSeek的R1,Qwen的2.5VL,以及Anthropic的Sonnet在內(nèi)的大模型,轉(zhuǎn)化為“計(jì)算機(jī)使用智能體”(Computer Use Agent)的能力。
與前代版本相比,OmniParser V2在多個(gè)方面實(shí)現(xiàn)了顯著提升。在檢測更微小、可交互的元素時(shí),V2展現(xiàn)了更高的精度和更快的推理速度。這一提升得益于V2采用了更大規(guī)模的交互元素檢測數(shù)據(jù)集和圖標(biāo)功能描述數(shù)據(jù)進(jìn)行訓(xùn)練。
此外,OmniParser V2還通過縮小圖標(biāo)描述模型的輸入圖像尺寸,進(jìn)一步優(yōu)化了推理性能。據(jù)微軟官方數(shù)據(jù),與前代版本相比,V2的推理延遲降低了60%。這一改進(jìn)使得OmniParser V2在處理復(fù)雜視覺任務(wù)時(shí)更加高效,為用戶提供了更加流暢、實(shí)時(shí)的交互體驗(yàn)。
此次OmniParser V2的發(fā)布,不僅展示了微軟在人工智能領(lǐng)域的持續(xù)創(chuàng)新,也為大模型在計(jì)算機(jī)智能體領(lǐng)域的應(yīng)用開辟了新的道路。
-
微軟
+關(guān)注
關(guān)注
4文章
6678瀏覽量
105544 -
計(jì)算機(jī)
+關(guān)注
關(guān)注
19文章
7642瀏覽量
90466 -
數(shù)據(jù)集
+關(guān)注
關(guān)注
4文章
1223瀏覽量
25354 -
大模型
+關(guān)注
關(guān)注
2文章
3085瀏覽量
3963
發(fā)布評論請先 登錄
在V2板子上部署豆包模型調(diào)試指南
微軟推出兩款全新銷售智能體
硅基覺醒已至前夜,聯(lián)發(fā)科攜手生態(tài)加速智能體化用戶體驗(yàn)時(shí)代到來
軟通計(jì)算機(jī)重磅發(fā)布DeepSeek大模型一體機(jī)產(chǎn)品

機(jī)智云發(fā)布Gokit5 AI智能體開發(fā)板:工業(yè)級智能體流水線重構(gòu)AIoT開發(fā)范式

評論