參與混合主動互動的能力是會話搜索系統(tǒng)的核心要求之一。如何做到這一點,人們知之甚少。我們提出了一組無監(jiān)督的度量標(biāo)準(zhǔn),稱作ConversationShape,通過比較詞匯和話語類型的分布來強調(diào)每個會話參與者所扮演的角色。以ConversationShape為標(biāo)準(zhǔn),仔細地研究了幾個會話搜索數(shù)據(jù)集,并將它們與其他對話數(shù)據(jù)集進行比較,以便更好地理解它們所代表的對話交互類型,無論是由信息搜索者還是助手驅(qū)動的。我們發(fā)現(xiàn),同一類型的人與人對話的對話形態(tài)與ConversationShape之間的偏離,可以預(yù)測人與機器對話的質(zhì)量。
1. 簡介
雖然會話搜索的想法已經(jīng)存在了幾十年,但這個想法最近引起了相當(dāng)大的關(guān)注。會話式用戶界面被認為比傳統(tǒng)的界面更有利于有效的信息訪問。在這種情況下,對話是一種協(xié)作過程,允許信息尋求者滿足信息需求。會話交互的關(guān)鍵特征之一是混合主動性的潛力,其中系統(tǒng)和用戶都可以采取適當(dāng)?shù)闹鲃有?。在這篇論文中,作者提出了一種分析評估對話參與者之間的主動性和協(xié)作程度的指標(biāo)。
迄今為止提出的會話搜索任務(wù)主要將對話減少為一系列的問題-答案對。在用于問答任務(wù)的數(shù)據(jù)集中,交互的結(jié)構(gòu)事先是固定的:要么用戶主動,系統(tǒng)隨后給出答案,要么反過來,這使得它們不適合研究角色之間的主動性如何轉(zhuǎn)移。來自在線問答論壇的討論是開發(fā)會話搜索任務(wù)的一個流行的數(shù)據(jù)來源[18,19]。雖然在線論壇是研究現(xiàn)實世界交互模式的寶貴資源,但它們展示了一種異步信息交換類型,正如我們在分析中所顯示的,這與同步對話交互非常不同。
會話系統(tǒng)通常分為問答、任務(wù)導(dǎo)向和閑聊。值得注意的是,這種分類模式主要基于構(gòu)建這種對話系統(tǒng)的方法的不同,而不是它們產(chǎn)生的對話的不同。在本文中,**我們著重分析和測量對話類型之間的差異,并報告由此產(chǎn)生的維度和一個新的對話分類方案。**我們表明,為會話搜索任務(wù)收集的人對人對話與面向任務(wù)的對話和閑聊對話在結(jié)構(gòu)上具有相似性。
最近對聊天對話模型的評估研究表明,對話系統(tǒng)傾向于通過問太多的問題和忽視用戶的主動性來控制對話[4,9]。標(biāo)準(zhǔn)的評估指標(biāo)不能捕捉到對話互動的這一維度,因此不能預(yù)測用戶參與度。對話評價最常用的指標(biāo)是回應(yīng)的相關(guān)性,通常是根據(jù)真實的回應(yīng)來衡量;如果響應(yīng)是一個答案,那么它可以與答案的準(zhǔn)確性相比較。我們的工作是對這項研究的補充。我們提出了一種新的基于一組無監(jiān)督特征的評價框架。該框架的設(shè)計目的是在適當(dāng)?shù)臅r候,根據(jù)平衡主動性和衡量對話參與者之間的協(xié)作來捕獲對話互動的質(zhì)量。
我們的評估框架是基于幾個獨立的詞匯特征,這些詞匯特征捕捉了對話中的主動性和協(xié)作性。先前采用了基于語篇特征的簡單自動測量方法,如詞匯和句法多樣性,以減少重復(fù)的共性回答,并估計問題的復(fù)雜性[14,23]。我們使用了一種無監(jiān)督的方法,類似于在匹配[13]語言風(fēng)格和衡量生成敘事[22]的質(zhì)量時所使用的方法。一個關(guān)鍵特征的對話是。它是一種由多個對話參與者產(chǎn)生的話語敘事類型。因此,我們分別估計每個參與者的詞匯特征,以便能夠比較他們的貢獻,從而推斷他們在對話中扮演的角色。
我們的對話表示方法是無監(jiān)督和領(lǐng)域獨立的,這允許我們將以前只在少數(shù)對話上執(zhí)行的分析擴展到數(shù)千個公開可用的對話文本。
我們的主要貢獻可以總結(jié)為:(1)我們在10個數(shù)據(jù)集(超過97k個對話)中考察了主動性和協(xié)作的結(jié)構(gòu)模式。我們的研究是第一個在龐大而多樣的對話語料庫中自動識別這些維度的研究,并將源自不同研究團體的對話任務(wù)進行類比。(2)我們所識別的主動性和協(xié)作模式與人類對對話質(zhì)量的判斷相關(guān)??刂频姆峙洌ㄆ渲锌刂票欢x為管理會話中的流程方向)是旨在增強人機協(xié)作的混合主動對話系統(tǒng)的核心。對話系統(tǒng)應(yīng)能夠識別usera??s提示的主動切換,從而提供適當(dāng)?shù)幕貞?yīng)。檢測主動性對于描述交互的質(zhì)量也很重要。我們的工作有助于洞察,為評估和優(yōu)化方法的設(shè)計提供信息,這些方法能夠識別對話中的主動性分配。
2. ConversationShape
ConversationShape是一種關(guān)注對話結(jié)構(gòu)屬性的對話表示方法。我們認為對話是幾個參與者之間交換的一系列話語。我們實驗中的所有對話都有兩名參與者。然而,我們的方法也適用于多方對話。信息尋求對話的特點通常是參與者在對話中扮演的角色不對稱:參與者通常扮演助手(A)的角色,其功能是通過對話搜索系統(tǒng)實現(xiàn)自動化;另一個對話參與者是一個信息尋求者,他正在使用助手的服務(wù)來獲取信息。為了模擬對話中的混合主動性,我們使用了四個指標(biāo),分別為每個對話參與者計算:(1)問題(question);(2)信息(information);(3)重復(fù)(repetition);和(4)流(flow)。
問題(question)是一種試圖控制談話方向的明確嘗試,因為提出的問題會讓另一個參與者產(chǎn)生相應(yīng)的答案。我們在NPS聊天語料庫上訓(xùn)練了一個有監(jiān)督分類器來識別問題和其他類型的話語。NPS聊天語料庫包含了來自網(wǎng)絡(luò)聊天室的7.9K個話語,標(biāo)注了14種話語類型:Statement、Emotion、Greet、Bye、Accept、Reject、whQuestion、ynQuestion、yAnswer、nAnswer、Emphasis、Continuer、clear、Other。我們的分類模型是從預(yù)先訓(xùn)練的羅伯塔17初始化的,并進一步為話語類型預(yù)測任務(wù)進行調(diào)整,在遞出測試集中實現(xiàn)F1為0.81。
其余的度量標(biāo)準(zhǔn)描述協(xié)作模式和對對話主題的控制。要解釋它們,我們首先需要介紹對話詞表的概念。對話詞表由出現(xiàn)在同一對話文本中的所有唯一單詞(或子單詞標(biāo)記)組成。我們對在同一對話中頻繁出現(xiàn)(不止一次)的單詞特別感興趣,因為重復(fù)模式很可能表明它們對對話主題的重要性。
信息(information)反映了參與者對談話主題的貢獻。我們將信息估計為會話參與者首先創(chuàng)造的頻繁令牌的計數(shù)。
重復(fù)(repetition)表示對談話主題的延續(xù)。為了分析共享詞匯表的出現(xiàn),我們跟蹤會話參與者之間的詞匯表重用模式。我們將重復(fù)估計為一個會話參與者首先引入并隨后被另一個會話參與者重復(fù)的標(biāo)記的數(shù)量。我們認為重復(fù)是對話中可用的一種相關(guān)性反饋,假設(shè)重復(fù)行為是通過增加標(biāo)記頻率來認可標(biāo)記對對話主題的重要性。另一種隱式引用前面標(biāo)記的方法是使用回指。因此,我們將回指計數(shù)加到重復(fù)計數(shù)中。從沃克和惠特克提出的分析框架中,我們使用了一小串英語回指:
“it”,“they”,“they”,“their”,“she”,“he”,“her”,“him”,“his”,“this”,“that”。我們也用現(xiàn)成的共參考分辨率模型進行了實驗,但結(jié)果并不令人滿意。
“流”(flow)是重復(fù)和信息之間的區(qū)別,它反映了參與者通過引用之前的陳述來維持對話的連貫性,或者通過引入新的信息來推動對話向前的作用。
對于每一次對話,我們分別計算每個對話參與者的值:conceptA和ConceptS(A代表assistant,S代表Seeker),其中Concept表示我們剛剛介紹的四個指標(biāo)之一。為了能夠比較不同長度的對話,我們還通過對話中說話的數(shù)量來標(biāo)準(zhǔn)化得分。然后,我們使用兩個指標(biāo)之間的平均值和差值來描述數(shù)據(jù)集中對話的類型。平均值顯示了每個指標(biāo)的重要性,例如每次對話的平均問題數(shù)量:
這種差異可以用來比較對話參與者之間的分布(平衡),例如在對話中誰問了更多的問題。我們使用類似于[13]的寫作風(fēng)格的公式:
它不僅表明了不同角色之間的指標(biāo)差異,而且還表明了其方向:負值表示Seeker的主導(dǎo)地位,正值A(chǔ)ssistant表示Assistant的主導(dǎo)地位。
3. 數(shù)據(jù)集
我們的分析跨越了10個公開可用的對話數(shù)據(jù)集,這些數(shù)據(jù)集是為各種對話任務(wù)而設(shè)計的。括號中的數(shù)字表示每個數(shù)據(jù)集中對話的數(shù)量。
4.結(jié)果
表1顯示了前一節(jié)中每個對話集的平均ConversationShape。這種表示允許比較集合并識別不同的對話類型,例如,圖1顯示了基于問題和信息分布的相似性而出現(xiàn)的集群。
助手驅(qū)動對話(Assistant-driven dialogues):從表1中我們可以看到,在CCPE中,助理通過提出問題來引導(dǎo)對話,探索者通過回答問題來跟進(負?重復(fù))。MultiWOZ和MSDialog也有助理提出的大部分問題,但這些問題是緊跟著探索者提供的問題和答案(正?重復(fù))。在“ReDial”中,助理通過提供信息和提問來推動對話,而探索者則繼續(xù)跟進(負?重復(fù))。
探索者驅(qū)動對話(Seeker-driven dialogue):SCS和WoW的相似之處在于:搜索者主要是提問,助理主要是提供信息。然而,在WoW中,導(dǎo)引頭會繼續(xù)跟隨助手介紹的主題(負?重復(fù)),而在SCS中,助手會跟隨導(dǎo)引頭。聊天對話(Human和Control-H)似乎更接近于起源,表明這種對話類型的參與者之間的主動性更平衡。然而,在DailyDialog數(shù)據(jù)集中,主動權(quán)傾向于對話發(fā)起者,后者更有可能提出問題并設(shè)置對話主題。
模型診斷:ConversationShape有助于評價對話模式,理解對話模式所表現(xiàn)出的越軌行為類型。這些實驗是在Control-M數(shù)據(jù)集的子集上進行的,這些子集對應(yīng)于不同對話模型產(chǎn)生的文本??偣灿?8個模型,我們分別計算每個模型的ConversationShape。然后,我們測量模型分布和為人類-人類對話子集(Control-H)計算的分布之間的交叉熵。最后,我們將我們的結(jié)果與原始論文[23]中報道的人類評價結(jié)果進行比較。與人類-人類分布的交叉熵最低(0.01)的模型,也是人類法官關(guān)于興趣偏好的模型,其特征是更好的flow和更多的信息共享(information sharing)。
此外,ConversationShape允許解釋對話模型所展示的偏差類型。在圖2中,我們正確地識別出了問太多問題(優(yōu)化為好奇、面試官)、重復(fù)太多(優(yōu)化為響應(yīng)性、鸚鵡式)或沒有跟進(優(yōu)化為多樣性或消極響應(yīng)性、說話者式)的模型。在比較Meena和Mitsuku對話[1]的transcripts時,我們無法達到同樣的結(jié)果。問題分布表明,Meena和Mitsuku對話在結(jié)構(gòu)上彼此非常不同,也不同于典型的人類閑聊分布。Mitsuku正在被審訊,而Meena則主動提出問題。
5. 結(jié)論
在本文中,我們介紹了ConversationShape框架,該框架提供了一組簡單但有效的無監(jiān)督度量,旨在度量會話的主動性和流(flow)。我們的分析揭示了不同對話類型之間的關(guān)系,并提出了一組適合在開發(fā)和評估對話系統(tǒng)或收集新的對話數(shù)據(jù)集時考慮的維度。我們的“Repetition”度量(估計會話主題的后續(xù)內(nèi)容)是相當(dāng)粗糙的,因為它只考慮詞法匹配和回指語。盡管我們表明它足以對數(shù)據(jù)集分布進行高級分析,但預(yù)測單個對話的質(zhì)量需要更細粒度的檢查。未來的工作應(yīng)該集中在開發(fā)一個可以解釋token之間語義相似度的擴展。下一步將這些指標(biāo)合并到一個學(xué)習(xí)算法的優(yōu)化標(biāo)準(zhǔn),模型提供一個適當(dāng)?shù)囊暯堑膶υ?,給一個明確的激勵來控制一個適當(dāng)?shù)钠胶猓缥覀兯故镜?,取決于對話的類型。
原文標(biāo)題:【SIGIR2020】信息檢索對話中混合主動性和協(xié)同性的分析
文章出處:【微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
責(zé)任編輯:haq
-
機器人
+關(guān)注
關(guān)注
213文章
29748瀏覽量
212952 -
神經(jīng)網(wǎng)絡(luò)
+關(guān)注
關(guān)注
42文章
4814瀏覽量
103661
原文標(biāo)題:【SIGIR2020】信息檢索對話中混合主動性和協(xié)同性的分析
文章出處:【微信號:zenRRan,微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
ArkUI-X框架LogInterface使用指南
《AI Agent 應(yīng)用與項目實戰(zhàn)》閱讀心得2——客服機器人、AutoGen框架 、生成式代理
??低曃乃汛鎯ο盗校嚎缒B(tài)檢索,安防新境界
AI開發(fā)框架集成介紹
HarmonyOS NEXT 應(yīng)用開發(fā)練習(xí):AI智能對話框
軟通動力與深信息簽署校企合作框架協(xié)議
浪潮信息發(fā)布"源"Yuan-EB,刷新RAG檢索最高成績
SSM框架的性能優(yōu)化技巧 SSM框架中RESTful API的實現(xiàn)
SSM框架在Java開發(fā)中的應(yīng)用 如何使用SSM進行web開發(fā)
浪潮信息發(fā)布“源”Yuan-EB助力RAG檢索精度新高

HarmonyOS NEXT應(yīng)用元服務(wù)開發(fā)Intents Kit(意圖框架服務(wù))技能調(diào)用方案概述
HarmonyOS NEXT應(yīng)用元服務(wù)開發(fā)Intents Kit(意圖框架服務(wù))本地搜索方案概述
芯片封裝設(shè)計引腳寬度和框架引腳的設(shè)計介紹

京東金融APP的鴻蒙之旅系列專題 新特性篇:意圖框架接入

軟件系統(tǒng)的數(shù)據(jù)檢索設(shè)計

評論