一、對(duì)話(huà)式交互技術(shù)
以智能音箱、智能電視為代表的對(duì)話(huà)式交互,是時(shí)下非?;馃岬摹⑶夷軌蜃呓覀兩畹?a target="_blank">人工智能子領(lǐng)域。
什么是對(duì)話(huà)式交互呢?我們首先從一個(gè)例子開(kāi)始。賈維斯,電影《鋼鐵俠》中那位鋼鐵俠的 AI 管家,他能獨(dú)立思考、可以實(shí)時(shí)幫鋼鐵俠處理各種事情,包括計(jì)算海量數(shù)據(jù)。其中最讓觀眾印象深刻的就是,賈維斯可以隨時(shí)隨地像人一樣進(jìn)行口語(yǔ)交流,來(lái)解決鋼鐵俠的問(wèn)題。
賈維斯能聽(tīng)、會(huì)說(shuō),能實(shí)時(shí)理解主人的對(duì)話(huà)意圖并根據(jù)實(shí)際場(chǎng)景進(jìn)行下一步的對(duì)話(huà),如果在對(duì)話(huà)過(guò)程中碰到有歧義的情況,他還會(huì)追問(wèn)鋼鐵俠,讓他提供更多的信息來(lái)消除歧義。賈維斯的這些能力就是對(duì)話(huà)式交互要提供的,其中的核心是 VUI (Voice User Interface,語(yǔ)音用戶(hù)界面)的設(shè)計(jì)。相對(duì)于 GUI(Graphical User Interface,圖形用戶(hù)界面),VUI 解放了人的雙手,某些場(chǎng)景下,簡(jiǎn)單的一句語(yǔ)音命令就能代替 GUI 下鼠標(biāo) / 遙控器的多次點(diǎn)擊,這帶來(lái)的不只是方便,還節(jié)省了時(shí)間。一個(gè)好的 VUI 系統(tǒng),能夠讓用戶(hù)盡可能通過(guò)最少輪次的對(duì)話(huà)實(shí)現(xiàn)既定意圖的執(zhí)行。賈維斯總能在危機(jī)時(shí)刻幫到鋼鐵俠,他是一個(gè)具有完美 VUI 的語(yǔ)音助手。
嗯,我們不要入戲過(guò)深,賈維斯是一部電影里的虛擬系統(tǒng)。那么,現(xiàn)實(shí)生活中,我們能創(chuàng)造出來(lái)一個(gè)接近賈維斯的對(duì)話(huà)式交互系統(tǒng)嗎?我們?cè)撛趺醋瞿??呃,很遺憾,以當(dāng)前的科技發(fā)展水平,我們還做不到電影里那么智能,更不用說(shuō)讓機(jī)器有意識(shí)。但人機(jī)交互并不是昨天才發(fā)明出來(lái)的,人類(lèi)在這個(gè)領(lǐng)域已經(jīng)探索了幾十年,我們可以實(shí)現(xiàn)鋼鐵俠與賈維斯的交互方式,并用這種方式來(lái)幫我們處理一些數(shù)據(jù)或控制我們身邊的一些硬件設(shè)備(比如讓語(yǔ)音助手根據(jù)天氣提供穿衣建議或者控制廚房和臥室的各個(gè)家電),這就是我們要聊的對(duì)話(huà)式交互技術(shù)。
對(duì)話(huà)式交互技術(shù)包括了語(yǔ)音識(shí)別 / 合成、語(yǔ)義理解和對(duì)話(huà)管理三個(gè)部分。當(dāng)下的對(duì)話(huà)式交互產(chǎn)品主要分兩類(lèi):以微軟小冰為代表的開(kāi)放域(Open Domain)對(duì)話(huà)系統(tǒng)和以亞馬遜 Alex 為代表的任務(wù)導(dǎo)向(Task Oriented)對(duì)話(huà)系統(tǒng)。以現(xiàn)在的技術(shù)能力,在開(kāi)放域聊天中,準(zhǔn)確理解用戶(hù)的話(huà)并給出正確答案的難度是很大的,因?yàn)槊鎸?duì)用戶(hù)千奇百怪的提問(wèn),機(jī)器對(duì)意圖的理解很可能出現(xiàn)錯(cuò)誤,知識(shí)庫(kù)也可能涵蓋不了那么廣。開(kāi)放域聊天更像是一個(gè)信息檢索系統(tǒng),基于已有知識(shí)庫(kù),為用戶(hù)的輸入匹配到一個(gè)答案。這樣的對(duì)話(huà)能力是十分有限的,構(gòu)造一個(gè)完善的知識(shí)庫(kù)更是困難重重。而任務(wù)導(dǎo)向的對(duì)話(huà)系統(tǒng)旨在幫助用戶(hù)完成特定領(lǐng)域的任務(wù),比如”查詢(xún)天氣“、“訂酒店”,這種領(lǐng)域特定的對(duì)話(huà)系統(tǒng)的最大優(yōu)勢(shì)是實(shí)現(xiàn)起來(lái)相對(duì)有效并且易于產(chǎn)品化。
二、對(duì)話(huà)式交互流程
回顧一下鋼鐵俠和賈維斯的交互過(guò)程,我們以鋼鐵俠詢(xún)問(wèn)賈維斯當(dāng)前裝備的損傷狀況為例,他們的對(duì)話(huà)可以概括如下:鋼鐵俠向賈維斯詢(xún)問(wèn),賈維斯接收到鋼鐵俠的話(huà)并理解他的意圖,然后去查詢(xún)相關(guān)數(shù)據(jù),最后把數(shù)據(jù)展示在屏幕上或讀出相關(guān)數(shù)據(jù)給鋼鐵俠聽(tīng)。這個(gè)交互的過(guò)程可以總結(jié)成下面這張圖:
? ? ? 鋼鐵俠向賈維斯詢(xún)問(wèn):鋼鐵俠的語(yǔ)音流發(fā)送給賈維斯。
? ? ? 賈維斯接收到鋼鐵俠的話(huà):賈維斯將語(yǔ)音識(shí)別為對(duì)應(yīng)的文字,并將口語(yǔ)化的文本歸一、糾錯(cuò),并書(shū)面化。
? ? ? 理解他的意圖:賈維斯進(jìn)行語(yǔ)義理解,并進(jìn)入對(duì)話(huà)管理。這里省去了多輪對(duì)話(huà)的示意,當(dāng)意圖相關(guān)信息不明確時(shí),賈維斯會(huì)發(fā)起確認(rèn)對(duì)話(huà),鋼鐵俠也可以根據(jù)賈維斯的反饋,繼續(xù)問(wèn)其他相關(guān)內(nèi)容,這些都是語(yǔ)義理解和對(duì)話(huà)管理服務(wù)的范疇。
? ? ? 然后去查詢(xún)相關(guān)數(shù)據(jù):在對(duì)話(huà)式交互服務(wù)中,這個(gè)流程的提供者我們稱(chēng)其為內(nèi)容服務(wù)。
? ? ? 最后把數(shù)據(jù)展示在屏幕上:對(duì)話(huà)結(jié)束,產(chǎn)生執(zhí)行動(dòng)作。
? ? ? 或讀出相關(guān)數(shù)據(jù)給鋼鐵俠聽(tīng):對(duì)話(huà)結(jié)束,語(yǔ)言生成文本經(jīng)過(guò)語(yǔ)音合成服務(wù),轉(zhuǎn)換為語(yǔ)音流,播報(bào)給用戶(hù)。
我們一般稱(chēng)將這樣的對(duì)話(huà)式交互系統(tǒng)為語(yǔ)音對(duì)話(huà)系統(tǒng)(Spoken Dialog System)。這里簡(jiǎn)單描述下各個(gè)組件。
語(yǔ)音識(shí)別 ASR
ASR(Automatic Speech Recognition)直譯為自動(dòng)語(yǔ)音識(shí)別,是一種通過(guò)聲學(xué)模型和語(yǔ)言模型,將人的語(yǔ)音識(shí)別為文本的技術(shù)。近年來(lái),隨著深度學(xué)習(xí)在語(yǔ)音識(shí)別中的廣泛使用,識(shí)別的準(zhǔn)確率大大提高,讓這項(xiàng)技術(shù)能被廣泛地應(yīng)用于語(yǔ)音輸入、語(yǔ)音搜索、實(shí)時(shí)翻譯、智能家居等領(lǐng)域,讓人與機(jī)器的語(yǔ)音交互變?yōu)榭赡堋?/p>
語(yǔ)義理解 NLU
語(yǔ)音識(shí)別只是知道我們說(shuō)了什么,但真正要理解我們說(shuō)的是什么,就需要依靠 NLU 這項(xiàng)技術(shù)。NLU(Natural Language Understand)直譯為自然語(yǔ)言理解,是 NLP(Natural Language Processing,自然語(yǔ)言處理)的一個(gè)子集,專(zhuān)注于“口語(yǔ)表達(dá)和對(duì)話(huà)”方向的自然語(yǔ)言處理。我們首先快速了解一下 NLP,NLP 研究主要用來(lái)解決下面這些問(wèn)題:
? ? 分詞:中文的書(shū)寫(xiě)詞語(yǔ)之間不會(huì)用空格等符號(hào)來(lái)分割,分詞就是將漢字序列切分成詞序列,因?yàn)樵跐h語(yǔ)中,詞是承載語(yǔ)義的基本單元。比如從北京飛上海這句話(huà)的分詞為:從 北京 飛 上海。
? ? ? 詞性標(biāo)注:詞性用來(lái)描述一個(gè)詞在上下文中的作用,如名詞、動(dòng)詞、形容詞等,詞性標(biāo)注就是識(shí)別這些詞的詞性,來(lái)確定其在上下文中的作用。
? ? ? 命名實(shí)體識(shí)別:在句子中定位并識(shí)別人名、地名、機(jī)構(gòu)名、數(shù)字、日期等實(shí)體。
? ? ? 文本分類(lèi):文本分類(lèi)就是將一篇文檔歸入預(yù)定義類(lèi)別中的一個(gè)或幾個(gè),比如將某一類(lèi)郵件歸類(lèi)為垃圾郵件,區(qū)分不同新聞的類(lèi)型等。
? ? ? 情感分析:情感分析是找出說(shuō)話(huà)者或文本作者對(duì)某個(gè)話(huà)題的兩極性觀點(diǎn)(積極或消極)、情緒(高興、悲傷、喜歡、厭惡等)。
自然語(yǔ)言理解通過(guò)使用上述技術(shù),完成指代消解、否定判斷、語(yǔ)句泛化、口語(yǔ)歸一化、ASR 糾錯(cuò)等工作,識(shí)別人機(jī)對(duì)話(huà)中的領(lǐng)域和意圖,獲得對(duì)話(huà)任務(wù)的語(yǔ)義信息。我們可以通過(guò)下面幾個(gè)例子感受一下:
1. 第 45 任美國(guó)總統(tǒng)是誰(shuí)?
他是哪里出生的?他 = 唐納德·特朗普
2. 感覺(jué)怎么樣?
不太好 不要緊 沒(méi)問(wèn)題 有問(wèn)題 沒(méi)有問(wèn)題 沒(méi)沒(méi)沒(méi) 沒(méi)事
3. 我要看溫情的電影 來(lái)個(gè)柔情的片子 我想看看暖心的影片
語(yǔ)義表示有多種形式,本系列使用的是最常見(jiàn)也是目前為止最成功的 " 框架語(yǔ)義(Frame Semantics)",即采用領(lǐng)域 ? ? ? (Domain)、意圖(Intent)和詞槽(Slot)來(lái)表示語(yǔ)義結(jié)果。
? ? ? 領(lǐng)域(Domain):領(lǐng)域是指同一類(lèi)型的數(shù)據(jù)或資源,以及圍繞這些數(shù)據(jù)或資源提供的服務(wù)。比如“天氣”、“音樂(lè)”、“酒店”等。
? ? ? 意圖(Intent):意圖是指對(duì)于領(lǐng)域數(shù)據(jù)的操作,一般以動(dòng)賓短語(yǔ)來(lái)命名,比如音樂(lè)領(lǐng)域有“查詢(xún)歌曲”、“播放音樂(lè)”、“暫停音樂(lè)”等意圖。
? ? ? 詞槽(Slot):詞槽用來(lái)存放領(lǐng)域的屬性,比如音樂(lè)領(lǐng)域有“歌曲名”、“歌手”等詞槽。
舉個(gè)例子,從“北京明天天氣怎么樣”這句話(huà)中,NLU 可以得到以下語(yǔ)義結(jié)果
? ? 領(lǐng)域(Domain):天氣
? ? ? 意圖(Intent):查詢(xún)天氣
? ? ? 詞槽(Slot):
? ? ? ? ○ 城市(city) = 北京
? ? ? ? ○ 時(shí)間(date) = 明天
對(duì)話(huà)管理 DM
DM(Dialog Management)直譯為對(duì)話(huà)管理,是對(duì)話(huà)式交互系統(tǒng)的核心,負(fù)責(zé)控制整個(gè)對(duì)話(huà)過(guò)程。主要包括對(duì)話(huà)上下文(Dialog Context)、對(duì)話(huà)狀態(tài)跟蹤(Dialog State Tracking)和對(duì)話(huà)策略(Dialog Policy)幾部分。
? ? 對(duì)話(huà)上下文:記錄對(duì)話(huà)的領(lǐng)域、意圖和詞槽數(shù)據(jù),每個(gè)領(lǐng)域可能包含多個(gè)意圖的數(shù)據(jù), 一般以隊(duì)列的形式存儲(chǔ)。
? ? ? 對(duì)話(huà)狀態(tài)跟蹤:每輪對(duì)話(huà)開(kāi)始后,會(huì)結(jié)合本輪對(duì)話(huà)提供的語(yǔ)義信息和上下文數(shù)據(jù),確定當(dāng)前對(duì)話(huà)狀態(tài),同時(shí)會(huì)補(bǔ)全或替換詞槽。
? ? ? 對(duì)話(huà)策略:根據(jù)對(duì)話(huà)狀態(tài)和具體任務(wù)決定要執(zhí)行什么動(dòng)作,比如進(jìn)一步詢(xún)問(wèn)用戶(hù)以獲得更多的信息、調(diào)用內(nèi)容服務(wù)等。
同樣以天氣場(chǎng)景的對(duì)話(huà)舉例說(shuō)明:
Q:明天天氣怎么樣?(intent=query_weather,date= 明天,city=null) A:您要查詢(xún)哪個(gè)城市的天氣?(action= 詢(xún)問(wèn)查詢(xún)哪個(gè)城市)
Q:北京的 (intent=query_weather,date= 明天,city= 北京) A:北京明天晴(action= 調(diào)用天氣服務(wù))
Q:那杭州呢?(intent=query_weather,date= 明天,city= 杭州) A:杭州明天小雨(action= 調(diào)用天氣服務(wù))
Q:后天天氣(intent=query_weather,date= 后天,city= 杭州) A:杭州后天小雪(action= 調(diào)用天氣服務(wù))
假設(shè)我們要查詢(xún)天氣信息。查詢(xún)天氣這個(gè)意圖需要兩個(gè)必選詞槽,城市和日期。也就是說(shuō),只有當(dāng)這兩個(gè)詞槽都有數(shù)據(jù)時(shí)才能查詢(xún)天氣服務(wù),得到天氣數(shù)據(jù)。從上面對(duì)話(huà)場(chǎng)景中可以看到,對(duì)話(huà)管理模塊會(huì)維護(hù)多輪對(duì)話(huà)上下文數(shù)據(jù)(包含意圖和詞槽等),跟蹤對(duì)話(huà)狀態(tài),填補(bǔ)或替換詞槽數(shù)據(jù),并決定如何與用戶(hù)交互或執(zhí)行什么樣的動(dòng)作。比如缺少必選詞槽時(shí),對(duì)話(huà)系統(tǒng)會(huì)追問(wèn)用戶(hù),以補(bǔ)全詞槽。
對(duì)話(huà)生成 NLG
NLG(Natural Language Generation)直譯為自然語(yǔ)言生成,即對(duì)話(huà)生成的技術(shù)。對(duì)于任務(wù)導(dǎo)向的對(duì)話(huà)來(lái)說(shuō),NLG 基本以模板形式來(lái)實(shí)現(xiàn)。模板中的回復(fù)信息可由詞槽或通過(guò)內(nèi)容服務(wù)得到的數(shù)據(jù)來(lái)替換。對(duì)話(huà)生成的原則是符合自然語(yǔ)言交互的習(xí)慣,易于用戶(hù)理解,最快完成對(duì)話(huà)。此外,NLG 還可以用于引導(dǎo)用戶(hù)的交流習(xí)慣,比如 NLG 的內(nèi)容為 " 已經(jīng)為你開(kāi)啟導(dǎo)航 ",可以引導(dǎo)用戶(hù)在希望導(dǎo)航時(shí),說(shuō) " 開(kāi)啟導(dǎo)航 "。
語(yǔ)音合成 TTS
TTS(Text To Speech)是指語(yǔ)音合成技術(shù)。對(duì)話(huà)系統(tǒng)的輸出是文本形式的 NLG 或者指令,當(dāng)對(duì)話(huà)返回的內(nèi)容是 NLG 時(shí),通過(guò) TTS 技術(shù)能將這些文本轉(zhuǎn)換成流暢的語(yǔ)音,播放給用戶(hù)。TTS 技術(shù)提供語(yǔ)速、音調(diào)、音量、音頻碼率上的控制,打破 GUI 中傳統(tǒng)的文字式人機(jī)交互方式,讓人機(jī)溝通更自然。
講完了對(duì)話(huà)式交互的流程和關(guān)鍵技術(shù),接下來(lái)來(lái)我們?cè)偕钊胨伎枷聦?duì)話(huà)式交互的產(chǎn)品化。
三、VUI 語(yǔ)音用戶(hù)界面
GUI(Graphical User Interface),即圖形用戶(hù)界面,是我們最熟悉的人機(jī)交互方式。我們每天面對(duì)的 PC 和手機(jī),無(wú)論是使用鼠標(biāo)點(diǎn)擊還是手指操作觸摸屏,我們?cè)缫蚜?xí)慣了這種無(wú)聲的圖形界面交流方式。隨著 AI 技術(shù)的發(fā)展,對(duì)話(huà)式交互逐漸走近我們的生活,我們和機(jī)器之間的交互從 GUI 邁向了 VUI(Voice User Interface),即語(yǔ)音用戶(hù)界面。VUI 是語(yǔ)音應(yīng)用 / 設(shè)備的入口,當(dāng)你說(shuō) "Hey Google" 的時(shí)候,Google Home 的音箱就會(huì)被喚醒,進(jìn)而與你交流。語(yǔ)音成為了 VUI 世界的連接者,就像 GUI 時(shí)代的鼠標(biāo)和手指。
相比 GUI 需要用戶(hù)動(dòng)手觸發(fā)某個(gè)動(dòng)作后結(jié)果只能以視覺(jué)形式展現(xiàn)給用戶(hù),VUI 有自己獨(dú)特的優(yōu)點(diǎn),它可以解放用戶(hù)的雙手和雙眼,無(wú)需手持或者緊盯著設(shè)備,用說(shuō)話(huà)這種更自然的方式去觸發(fā)動(dòng)作,而返回結(jié)果則以語(yǔ)音方式播放給用戶(hù)聽(tīng)。這在一些像駕駛、做飯、跑步等無(wú)法動(dòng)手操作的場(chǎng)景下特別有用。設(shè)計(jì)良好的 VUI,會(huì)以最少的交互完成用戶(hù)的意圖,能極大地提升用戶(hù)體驗(yàn)。比如,通過(guò)學(xué)習(xí)用戶(hù)習(xí)慣從而為用戶(hù)提供 " 條件反射式 " 的服務(wù)、更口語(yǔ)化的交流、引導(dǎo)用戶(hù)收斂話(huà)題,通過(guò)詢(xún)問(wèn)糾正異常情況(當(dāng)用戶(hù)不按套路出牌時(shí))等。
在 GUI 中,用戶(hù)的行為流程是預(yù)先設(shè)計(jì)好的,比如在某個(gè)界面能觸發(fā)什么動(dòng)作都是固定的,或者有個(gè)一級(jí)一級(jí)的引導(dǎo)關(guān)系,用戶(hù)只能按照設(shè)定好的流程去做。而在 VUI 中,用戶(hù)的行為則是無(wú)法預(yù)測(cè)的,不同用戶(hù)在不同的場(chǎng)景下的行為可能完全不一樣,而且語(yǔ)音交互需要用戶(hù)高度集中注意力去聽(tīng)系統(tǒng)說(shuō)了什么。在一些場(chǎng)景下反而會(huì)帶來(lái)不便,比如在電視上想看一個(gè)節(jié)目列表,用圖形界面展示的方式會(huì)更直觀一點(diǎn),用戶(hù)可以慢慢看,但用語(yǔ)音播報(bào)的話(huà),數(shù)據(jù)量大的時(shí)候,用戶(hù)很可能聽(tīng)了后面的忘記前面的,效果反而不如 GUI 好。所以設(shè)計(jì) VUI 時(shí)千萬(wàn)不要讓用戶(hù)有認(rèn)知負(fù)荷,不要挑戰(zhàn)人類(lèi)短暫的記憶力。
聲音是自然的交互方式,但卻不能完全取代 GUI,它們是一個(gè)互補(bǔ)協(xié)作的關(guān)系。所以在設(shè)計(jì)語(yǔ)音交互界面時(shí),可以把 VUI 和 GUI 結(jié)合起來(lái),以實(shí)現(xiàn)多模態(tài)的智能交互。通過(guò)上面的描述,我們對(duì) VUI 有了大致的了解,趁熱打鐵,我們來(lái)設(shè)計(jì)一個(gè)對(duì)話(huà)式交互產(chǎn)品。一起體會(huì)下對(duì)話(huà)平臺(tái)要注意哪些問(wèn)題。
四、對(duì)話(huà)式交互產(chǎn)品的設(shè)計(jì)
設(shè)計(jì)一個(gè)好的對(duì)話(huà)式交互產(chǎn)品首先要突破 GUI 的設(shè)計(jì)思維。我們?cè)O(shè)計(jì)一個(gè)對(duì)話(huà)任務(wù)的目標(biāo)是最快速地解決用戶(hù)的問(wèn)題。對(duì)話(huà)式交互產(chǎn)品重點(diǎn)是交互,因此一定要結(jié)合場(chǎng)景來(lái)設(shè)計(jì),要把自己代入對(duì)話(huà)場(chǎng)景中,想象如果自己使用這個(gè)語(yǔ)音界面,會(huì)在什么情況下使用、以怎樣的方式跟它對(duì)話(huà)、希望它怎么回復(fù)我們。
下面我總結(jié)出了一些設(shè)計(jì)步驟和原則,可以作為參考:
設(shè)計(jì)步驟
1. 選擇正確的用戶(hù)場(chǎng)景,提供優(yōu)質(zhì)對(duì)話(huà)體驗(yàn)
不要嘗試直接把現(xiàn)有的手機(jī)或桌面應(yīng)用的交互方式轉(zhuǎn)變成語(yǔ)音交互,這樣可能會(huì)讓語(yǔ)音交互變得更加復(fù)雜。我們應(yīng)該結(jié)合用戶(hù)使用語(yǔ)音交互時(shí)的狀態(tài),比如在戶(hù)外不方便看網(wǎng)頁(yè)或屏幕,或者雙手被占用無(wú)法操作別的東西。
這里有以下幾點(diǎn)建議來(lái)幫忙選擇適合轉(zhuǎn)換成語(yǔ)音交互的場(chǎng)景:
? ? ?需要用戶(hù)輸入的特別熟悉的信息,比如個(gè)人信息、位置、時(shí)間等。
? ? ?能快速提供有用信息的場(chǎng)景,用戶(hù)說(shuō)幾句話(huà)就能節(jié)省很多操作,比如訂餐、叫車(chē)。
? ? ?天生適合語(yǔ)音交互的場(chǎng)景,比如做飯時(shí)聽(tīng)菜譜、開(kāi)車(chē)時(shí)做筆記。
2. 創(chuàng)建符合當(dāng)前場(chǎng)景的對(duì)話(huà)風(fēng)格和形象
開(kāi)始設(shè)計(jì)語(yǔ)音交互之前,先考慮你希望它聽(tīng)起來(lái)怎么樣,能帶給人怎樣的感受。比如要設(shè)計(jì)個(gè)趣味游戲,你可能想要一種搞笑風(fēng)格;而設(shè)計(jì)個(gè)新聞閱讀器,就需要嚴(yán)肅認(rèn)真的語(yǔ)氣,給人靠譜的感覺(jué)。
3. 編寫(xiě)對(duì)話(huà)
選好場(chǎng)景、確定形象后,你可能想要馬上投入開(kāi)發(fā),但是一定要拒絕沖動(dòng)。相反,我們要用紙和筆先構(gòu)思一下對(duì)話(huà)。寫(xiě)下用戶(hù)可能參與的獨(dú)立或多輪對(duì)話(huà),下面是一些對(duì)話(huà)類(lèi)型和可能需要考慮的問(wèn)題:
? ? ?完成對(duì)話(huà)任務(wù)最簡(jiǎn)單的方式,不要太復(fù)雜。
? ? ?完成對(duì)話(huà)任務(wù)的其他方式,這可能是多樣化的,因?yàn)橛械挠脩?hù)一次只說(shuō)一部分信息,這就需要多次交互才能完成任務(wù),而有的用戶(hù)則一次把所有信息說(shuō)完。
? ? ?需要修正的對(duì)話(huà)場(chǎng)景,比如系統(tǒng)不支持,或不理解用戶(hù)的意圖。
? ? ?用戶(hù)中途結(jié)束對(duì)話(huà),或完成對(duì)話(huà)任務(wù)后,怎么確認(rèn)結(jié)束對(duì)話(huà)場(chǎng)景。
? ? ?問(wèn)候語(yǔ),以及怎么引出對(duì)話(huà)場(chǎng)景。
? ? ?語(yǔ)音交互部分搞定后,需要考慮怎么在設(shè)備屏幕上展示對(duì)話(huà)內(nèi)容。比如對(duì)話(huà)通過(guò)語(yǔ)音方式說(shuō)出了一部分內(nèi)容,而還有一些數(shù)據(jù)需要展示在屏幕上。
4. 進(jìn)行測(cè)試
測(cè)試沒(méi)有想象中的麻煩,你需要做的就是找一些開(kāi)發(fā)團(tuán)隊(duì)之外的人,在沒(méi)有提示的情況下,讓他們用平時(shí)正常說(shuō)話(huà)的方式使用你的產(chǎn)品,從各個(gè)角度測(cè)試對(duì)話(huà)。多試幾次可能就會(huì)發(fā)現(xiàn)哪些對(duì)話(huà)任務(wù)完成有困難,或者交互給人的感受怎么樣。
設(shè)計(jì)對(duì)話(huà)的目標(biāo)是滿(mǎn)足用戶(hù)的意圖,而不僅僅是完成一個(gè)功能。
設(shè)計(jì)原則
? ?給語(yǔ)音交互界面賦予一個(gè)擬人化的形象,不要讓用戶(hù)覺(jué)得太生硬,是在跟機(jī)器對(duì)話(huà)。
? ? ?保持簡(jiǎn)潔,節(jié)省用戶(hù)的時(shí)間,提供有效的信息。
? ? ?信任用戶(hù),用戶(hù)知道怎么講話(huà),所以不要試圖教用戶(hù)怎么說(shuō),我們只需要提供最自然的方式,推進(jìn)對(duì)話(huà)進(jìn)展就可以。
? ? ?可以增加個(gè)性化能力,使用戶(hù)聽(tīng)起來(lái)感到愉悅,但不要分散用戶(hù)注意力。
? ? ?使新用戶(hù)感興趣,也要吸引專(zhuān)家用戶(hù),設(shè)計(jì)要面向海量用戶(hù),而不是只滿(mǎn)足低端需求。
? ? ?輪流說(shuō)話(huà),當(dāng)輪到用戶(hù)說(shuō)話(huà)時(shí),不要貿(mào)然打斷。如果是問(wèn)用戶(hù)問(wèn)題,那就不要在他們回答問(wèn)題的時(shí)候又突然插入其他指令。
? ? ?不要猜測(cè)用戶(hù)的意圖,給用戶(hù)展現(xiàn)事實(shí),讓他們自己決定。
? ? ?結(jié)合上下文語(yǔ)境,追蹤對(duì)話(huà)的來(lái)龍去脈,保證準(zhǔn)確理解用戶(hù)的話(huà)。
綜上,我們對(duì)對(duì)話(huà)式交互有了比較全面的認(rèn)識(shí),本系列接下來(lái)的三篇文章將以本篇講述的對(duì)話(huà)式交互知識(shí)為背景,深度講述亞馬遜、谷歌和微軟的語(yǔ)音交互平臺(tái),和大家一起分享如何在這三大平臺(tái)上,實(shí)現(xiàn)我們自己的對(duì)話(huà)式交互技能。這里對(duì)技能的定義是特定領(lǐng)域的對(duì)話(huà)能力,包括語(yǔ)義理解、對(duì)話(huà)邏輯控制和相關(guān)的內(nèi)容服務(wù)。
評(píng)論