一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

對話機器人之Sparrow簡介

深度學習自然語言處理 ? 來源:NLP日志 ? 2023-01-11 17:00 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

1 簡介

DeepMind提出的Sparrow,相對于以往的方法,是一種更加有用,準確并且無害的信息檢索對話機器人。

在之前的對話研究中,往往會針對對話的不同方面去設(shè)計對應(yīng)的任務(wù)跟模塊,例如知識性,一致性,長期記憶等等,但是Sparrow則不然,它直接根據(jù)用戶的用戶的反饋進行學習,這樣能盡可能讓模型對齊真實的用戶行為,而不再需要關(guān)注過于瑣碎的諸多對話細節(jié)。

95cda8ea-8508-11ed-bfe3-dac502259ad0.png

圖1: Sparrow測試樣例

2 Sparrow

整個流程是通過Sparrow模型根據(jù)當前對話生成多個候選回復(fù),讓用戶去判斷那個回復(fù)最好,哪些回復(fù)違反了預(yù)先設(shè)置好的規(guī)則,基于用戶的反饋去訓練對應(yīng)的Reward模型,利用訓練好的Reward模型,用強化學習算法再去優(yōu)化Sparrow的生成結(jié)果。

95fcf4ec-8508-11ed-bfe3-dac502259ad0.png

圖2:Sparrow框架

Reward

Sparrow學習的用戶反饋分為兩種,一種用戶判斷對話是否違背某些預(yù)設(shè)置好的規(guī)則,另一種的是從用戶根據(jù)當前對話從個候選答案里選擇最合適的一個。這兩種反饋分為對應(yīng)兩個不同的模型,Rule reward model跟Preference reward model。

對于Rule reward model,首先需要根據(jù)任務(wù)自定義對應(yīng)的一些規(guī)則,例如判斷機器人是否在回答用戶問題,話題是否變化等等,規(guī)則樣例如下圖所示。在具體訓練數(shù)據(jù)構(gòu)造時,用戶在給定對話條件下,還會給某個特定規(guī)則,讓用戶有意識的引導機器人去違反對應(yīng)的規(guī)則,然后再由用戶評估機器人回復(fù)是否違反對應(yīng)的規(guī)則。

之所以采用這種方式是為了更高效的積累到高質(zhì)量樣本。用構(gòu)造好的訓練數(shù)據(jù)訓練對應(yīng)的分類模型,判斷機器人回復(fù)是否違反對應(yīng)的規(guī)則,每個規(guī)則對應(yīng)一個分類模型,彼此獨立。

9828ca52-8508-11ed-bfe3-dac502259ad0.png

圖3:規(guī)則示例

對于Preference reward model,在給定當前對話條件下,利用多種方式生成多個候選答案(通過是否引入知識檢索,不同生成模型,不同prompt,不同采樣策略),讓用戶從中選擇最合適的答案。利用這些構(gòu)造好的數(shù)據(jù)訓練可以得到對應(yīng)的分類模型,判斷用戶對于當前回復(fù)的傾向。

以下圖為例,共有8個候選答案,其中前四個是不不經(jīng)過知識檢索直接生成的,后面四個是通過兩個不同的檢索query進行知識檢索,將得到的檢索結(jié)果跟當前對話合并再一起后再生成回復(fù)的。

985333e6-8508-11ed-bfe3-dac502259ad0.png

圖4: 回復(fù)生成流程

Reranking

當上述兩個Reward模型給候選答案生成對應(yīng)的得分后,通過一個重排機制綜合考慮兩者的得分可以進一步優(yōu)化對話機器人的性能。

Evidence

前面提及的答案生成是可以通過知識檢索,根據(jù)當前上下文生成對應(yīng)的query,利用Google進行搜索,將得到的結(jié)果跟當前對話信息組合,然后再生成對應(yīng)的回復(fù)。之前也寫過一些相關(guān)的文章,有興趣可以自行查看文本生成系列之retrieval augmentation(思考篇)。

Reinforcement learning

這里強化學習每一步的狀態(tài)是當前的對話上下文,action是具體的token,利用前面提及的rule reward model跟preference reward model來給action打出對應(yīng)的reward得分,從而優(yōu)化Sparrow的輸出結(jié)果。在強化學習訓練過程中,如果機器人生成的回復(fù)reward超過預(yù)期的話,就會把當前對話上下文+機器人回復(fù)作為新的訓練數(shù)據(jù)加入到語料中,擴充訓練語料庫。

98a86410-8508-11ed-bfe3-dac502259ad0.png

圖5: 強化學習流程

3 總結(jié)

個人認為,Sparrow對話機器人,最大的特色在于直接對用戶的反饋進行學習,那樣就不需要為對話各種瑣碎細節(jié)去設(shè)計不同的模塊跟任務(wù),把決策權(quán)進一步交給模型,讓模型自己去學,而對于那些機器人可能學不好的地方,通過預(yù)先定義的規(guī)則去構(gòu)造對應(yīng)的訓練數(shù)據(jù),讓模型自己去補全。By the way, 可以好好期待一波ChatGPT了。





審核編輯:劉清

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 機器人
    +關(guān)注

    關(guān)注

    213

    文章

    29730

    瀏覽量

    212837

原文標題:對話機器人之Sparrow

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    AI火爆 對話機器人將成為App之后的新入口?

    Bot即智能對話機器人,被業(yè)界定義為后App時代的全新人機交互方式,譬如蘋果Siri,微軟小冰,小i機器人虛擬客服等等。例如,目前用戶可以用Siri打開滴滴叫車,這意味著用戶可以直接通過Bots獲取服務(wù),而不需要進入App。
    發(fā)表于 10-26 08:54 ?1552次閱讀

    話機器人顯著提高回款效率,對催收幫助不言而喻。

    據(jù)的方向,電話機器人最核心的語音識別,機器人必須在最短時間內(nèi)識別客戶的關(guān)鍵詞,并導入下一級菜單(即作出相應(yīng)的應(yīng)答)。在整個對話當中,機器人女聲禮貌溫和、應(yīng)答自如,完全分辨不出是否人工,
    發(fā)表于 03-16 15:48

    智能打電話,機器人哪家比較好 如何選擇合適的電銷機器人

    的智能電銷機器人不是有身體有四肢那種實體存在的機器人,而是一套人工智能程序系統(tǒng),所謂的人工智能機器人都是靠人工智能程序支撐,機器人只是一個載體而已。 智能打電
    發(fā)表于 05-03 13:18

    電銷機器人的優(yōu)點

    。金融、保險、房地產(chǎn)、汽車等各個行業(yè)不同,大數(shù)訊機器人所制定的話術(shù)也不盡相同。且大數(shù)訊智能電話機器人會根據(jù)公司的側(cè)重點及方向來制定話術(shù),使其更有針對性的來跟客戶對話。使用大數(shù)訊智能電話機器人
    發(fā)表于 06-12 10:27

    話機器人:電銷行業(yè)精準篩選客戶的利器

    工作量巨大的工作,不得不說每天有很大一部分時間需要安排在篩選大量意向客戶身上,而挖掘已有客戶的時間少之又少。 一、精準篩選意向客戶——提高效率智能挑選意向客戶:電話機器人能夠正常的和客戶交流、挑選意向
    發(fā)表于 08-21 11:27

    華云天下智能電話機器人有哪些優(yōu)勢?

    的公司。機器人一樣,只有不斷學習,才能提高它的識別能力。在有限的話術(shù)配置下,轉(zhuǎn)接人工座席就顯得尤為重要。華云天下電話機器人就是不一樣!多數(shù)廠商的智能電話機器人僅有一到兩輪
    發(fā)表于 08-22 14:44

    機器人簡介

    一.機器人簡介機器人(Robot)是自動執(zhí)行工作的機器裝置。它既可以接受人類指揮,又可以運行預(yù)先編排的程序,也可以根據(jù)以人工智能技術(shù)制定的原則綱領(lǐng)行動。它的任務(wù)是協(xié)助或取代人類工作的
    發(fā)表于 09-07 06:05

    機器人系統(tǒng)與控制需求簡介

    第二章 機器人系統(tǒng)與控制需求簡介2.1 工業(yè)機器人的系統(tǒng)組成機械本體:精密減速機、伺服電機、伺服驅(qū)動器、控制系統(tǒng)(核心零部件)控制柜示教盒2.2 機器人本體結(jié)構(gòu)與傳動方式
    發(fā)表于 09-08 07:44

    設(shè)計一個能自由行走并且可以與人語音對話機器人的設(shè)計資料分享

    在我的想象中機器人首先應(yīng)該能自由的走來走去,然后應(yīng)該能流利的與主人對話。朝著這個理想,我準備設(shè)計一個能自由行走,并且可以與人語音對話機器人。實現(xiàn)的關(guān)鍵是讓
    發(fā)表于 12-17 06:58

    話機器人是什么?電銷機器人有什么用?有多少電話機器人品牌?

    代替人類工作的電話機器人。?  電話機器人采用了最前沿的深入學習技術(shù),先進的語音識別(ASR)、口語理解(SLU)、對話管理(DM)、自然語言生成(NLG)、文本生成語音(TTS)五種對話
    發(fā)表于 07-26 19:35 ?1196次閱讀

    檢索式智能對話機器人開發(fā)實戰(zhàn)案例詳細資料分析概述

    本文檔的主要內(nèi)容詳細介紹的是檢索式智能對話機器人開發(fā)實戰(zhàn)案例詳細資料分析概述主要內(nèi)容包括了:第一個智能聊天機器人,人工智能標記語言AIML,AIML基礎(chǔ)功能拓展進階,AIML框架源碼剖析
    發(fā)表于 08-02 17:47 ?16次下載

    外呼對話機器人,自動批量外呼、智能人機對話-漢云

    外呼對話機器人融合傳統(tǒng)呼叫中心通信技術(shù)、智能AI等計算機技術(shù),實現(xiàn)自動真人語音外呼,智能人機對話等場景,其目的是幫助座席高效完成外呼任務(wù),為企業(yè)降低外呼成本,代替輔助人工快速獲客?! ‰S著國內(nèi)呼叫
    的頭像 發(fā)表于 01-14 09:25 ?3533次閱讀
    外呼<b class='flag-5'>對話機器人</b>,自動批量外呼、智能人機<b class='flag-5'>對話</b>-漢云

    對話機器人的智能程度判斷方法介紹

    有些對話機器人總讓崩潰,也許是智能級別不夠高。本文,就來一起看看如何判斷一個機器人的智能程度。 ? 隨著智能對話技術(shù)的發(fā)展,對話機器人越來
    的頭像 發(fā)表于 01-06 17:50 ?2791次閱讀

    AI應(yīng)用全面爆發(fā) 對話機器人成熱趨

    近日,艾瑞發(fā)布了題為《2021中國對話機器人chatbot行業(yè)發(fā)展研究》報告(下文簡稱《報告》)。報告針對對話機器人的產(chǎn)品流程、發(fā)展歷程、市場規(guī)模及應(yīng)用場景分布進行了行業(yè)嵌入式研究分析及梳理,對上
    的頭像 發(fā)表于 10-14 09:55 ?1089次閱讀

    對話機器人LaMDA

    來自:NLP日志 提綱1 簡介 2 LaMDA 3 總結(jié) 1 簡介 LaMDA是在DeepMind的Sparrow跟openai的instructGPT之前由谷歌提出的對話機器人,全稱
    的頭像 發(fā)表于 01-04 14:49 ?1442次閱讀