當(dāng)前AI界和產(chǎn)業(yè)界,Agent成為現(xiàn)象級(jí)話題。企業(yè)Agent已經(jīng)從熱門概念走進(jìn)產(chǎn)業(yè)現(xiàn)實(shí),成為探索AI落地的新錨點(diǎn)。
此前,6月27-28日,由極客邦科技旗下InfoQ中國主辦的“AICon全球人工智能開發(fā)與應(yīng)用大會(huì)”在北京舉辦。作為行業(yè)領(lǐng)先的視覺AI公司,格靈深瞳受邀參會(huì)。
在“AI Agent構(gòu)建與多場(chǎng)景實(shí)踐”專題現(xiàn)場(chǎng),格靈深瞳研發(fā)副總裁、AIInfra負(fù)責(zé)人閆梓禎分享了名為《構(gòu)建高可信自動(dòng)化企業(yè)Agent評(píng)測(cè)體系的實(shí)戰(zhàn)方法論》的主題演講,從企業(yè)Agent評(píng)測(cè)的重要性、現(xiàn)狀、實(shí)戰(zhàn)方法等維度,講述了格靈深瞳團(tuán)隊(duì)對(duì)于這一話題的思考與實(shí)踐。
“If you can't measure it,you can't improve it.” (如果你不去評(píng)測(cè)它,便無法提升它。)談及評(píng)測(cè)對(duì)于企業(yè)Agent開發(fā)與落地的重要性,閆梓禎表示,有效評(píng)測(cè)是提升Agent應(yīng)用效果的關(guān)鍵。隨著模型能力快速提升,技術(shù)刷爆榜單的速度越來越快,應(yīng)用層Agent開發(fā)亟需更有效、更嚴(yán)格的評(píng)估機(jī)制,才能更客觀地反映AI的真實(shí)表現(xiàn),解決技術(shù)參數(shù)與實(shí)際效果之間的gap問題。
基于多年的開發(fā)與交付經(jīng)驗(yàn),閆梓禎分享了現(xiàn)階段企業(yè)Agent評(píng)測(cè)的發(fā)展?fàn)顟B(tài)和面臨的問題。當(dāng)前,企業(yè)Agent在各行業(yè)、各場(chǎng)景下的落地尚處于早期起步階段,具體到評(píng)測(cè)環(huán)節(jié),企業(yè)往往面臨“如何評(píng)測(cè)”、“對(duì)接真實(shí)業(yè)務(wù)系統(tǒng)后如何保證應(yīng)用效果”等實(shí)際問題。
對(duì)企業(yè)來說,真實(shí)反映AI能力、客觀衡量AI效果的需求越來越迫切,相應(yīng)地,實(shí)現(xiàn)難度也越來越大。如何構(gòu)建一套高可信度、自動(dòng)化、規(guī)模化的企業(yè)Agent評(píng)測(cè)系統(tǒng),成為業(yè)內(nèi)關(guān)注的焦點(diǎn)。
相較于單純依靠人工評(píng)測(cè),閆梓禎建議,使用大模型或者Agent相關(guān)技術(shù)來構(gòu)建評(píng)測(cè)體系——讓Agent自動(dòng)生成評(píng)測(cè)數(shù)據(jù)集、自動(dòng)對(duì)評(píng)測(cè)對(duì)象進(jìn)行打分,從而實(shí)現(xiàn)整個(gè)評(píng)測(cè)流程的規(guī)?;妥詣?dòng)化。在格靈深瞳,已經(jīng)鼓勵(lì)研發(fā)人員和產(chǎn)品經(jīng)理使用大模型來輔助評(píng)測(cè)工作,并取得了不錯(cuò)的表現(xiàn)。
但這種“Agent as a judge”的范式并不是萬金油。當(dāng)AI技術(shù)落地到復(fù)雜多變的現(xiàn)實(shí)工況中,依舊需要行業(yè)專家經(jīng)驗(yàn)作為評(píng)測(cè)支撐。高自動(dòng)化評(píng)測(cè)系統(tǒng)+人工介入,是目前更為有效的實(shí)際解決方案。
基于對(duì)評(píng)測(cè)體系的思考與實(shí)踐,格靈深瞳構(gòu)建了一套自研的Agent評(píng)測(cè)平臺(tái)。在該平臺(tái)能力的支撐下,開發(fā)者可以快速響應(yīng)、高效優(yōu)質(zhì)地交付各行業(yè)定制化Agent。
例如,格靈深瞳在為金融機(jī)構(gòu)、政企客戶打造專屬Agent時(shí),該評(píng)測(cè)平臺(tái)能夠助力極大縮短開發(fā)周期,依靠數(shù)據(jù)生成快速構(gòu)建場(chǎng)景,并利用沙箱環(huán)境提前模擬測(cè)試,提高交付質(zhì)量。更重要的是,該平臺(tái)的多維度指標(biāo)和真實(shí)環(huán)境仿真,可以讓Agent的輸出結(jié)果既準(zhǔn)確又合規(guī),成為真正的專業(yè)級(jí)產(chǎn)品,經(jīng)得住實(shí)際業(yè)務(wù)中的復(fù)雜考驗(yàn)。
在該評(píng)測(cè)系統(tǒng)的支撐下,企業(yè)Agent不僅是一個(gè)“能用”的工具,更是一個(gè)穩(wěn)定、可靠、能持續(xù)進(jìn)化的智能伙伴。未來,如何衡量企業(yè)Agent的價(jià)值,如何構(gòu)建可靠、自動(dòng)的評(píng)測(cè)系統(tǒng),這背后的道與術(shù),將是格靈深瞳持續(xù)思考和實(shí)踐的致力方向。
-
AI
+關(guān)注
關(guān)注
88文章
35164瀏覽量
280004 -
人工智能
+關(guān)注
關(guān)注
1807文章
49029瀏覽量
249568 -
Agent
+關(guān)注
關(guān)注
0文章
133瀏覽量
27836 -
格靈深瞳
+關(guān)注
關(guān)注
1文章
62瀏覽量
5724
原文標(biāo)題:企業(yè)Agent如何從“能用”到“好用”?格靈深瞳的評(píng)測(cè)實(shí)戰(zhàn)方法論
文章出處:【微信號(hào):shentongzhineng,微信公眾號(hào):格靈深瞳】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
評(píng)論