一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

一文簡(jiǎn)析汽車(chē)駕駛艙內(nèi)多模態(tài)人機(jī)交互

工程師鄧生 ? 來(lái)源:智能汽車(chē)開(kāi)發(fā)者平臺(tái) ? 作者:Quentin Portes ? 2022-10-08 11:23 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

摘要

如今,每一個(gè)汽車(chē)制造商都在思考移動(dòng)的未來(lái)。電動(dòng)汽車(chē)、自動(dòng)駕駛汽車(chē)和共享汽車(chē)是最具潛力的機(jī)會(huì)之一。自動(dòng)駕駛和共享汽車(chē)缺乏權(quán)威性,引起了不同的問(wèn)題,其中一個(gè)主要問(wèn)題是乘客安全。為了確保安全,必須設(shè)計(jì)能夠理解乘客之間的互動(dòng)和可能的沖突的新系統(tǒng)。它們應(yīng)該能夠預(yù)測(cè)汽車(chē)駕駛艙的關(guān)鍵情況,并提醒遠(yuǎn)程控制器采取相應(yīng)的行動(dòng)。

為了更好地了解這些不安全情況的特點(diǎn),我們?cè)谡鎸?shí)的車(chē)輛環(huán)境中記錄了一個(gè)音頻視頻數(shù)據(jù)集。我們記錄了22名參與者在三個(gè)不同的場(chǎng)景("好奇"、"有爭(zhēng)議的拒絕 "和 "沒(méi)有爭(zhēng)議的拒絕")下,司機(jī)和乘客之間的互動(dòng)。我們提出一個(gè)深度學(xué)習(xí)模型來(lái)識(shí)別汽車(chē)駕駛艙中的沖突情況。我們的方法達(dá)到了81%的平衡準(zhǔn)確性。實(shí)際上,我們強(qiáng)調(diào)了結(jié)合多種模式,即視頻、音頻和文本以及時(shí)間性的重要性,這是在場(chǎng)景識(shí)別中進(jìn)行如此準(zhǔn)確預(yù)測(cè)的關(guān)鍵。

I.簡(jiǎn)介

對(duì)話、互動(dòng)、情緒和情感分析是了解人類(lèi)的關(guān)鍵。監(jiān)測(cè)這些元素可以解決行業(yè)問(wèn)題,如社交媒體平臺(tái)上的敏感內(nèi)容過(guò)濾或改善人機(jī)界面理解。對(duì)于汽車(chē)行業(yè)來(lái)說(shuō),一個(gè)重要的問(wèn)題是汽車(chē)駕駛艙分析。事實(shí)上,它將有助于回答與汽車(chē)新用途(如社交、車(chē)輛共享、自動(dòng)駕駛汽車(chē)等)相關(guān)的各種安全問(wèn)題。

更確切地說(shuō),提出了兩個(gè)安全問(wèn)題:由于沒(méi)有司機(jī)在場(chǎng)而缺乏權(quán)威,以及與陌生人共享車(chē)輛。這些問(wèn)題可能會(huì)導(dǎo)致嘲諷、欺凌,甚至在最糟糕的情況下,導(dǎo)致攻擊。這些安全問(wèn)題必須被預(yù)見(jiàn)和避免。涉眾者必須在這些類(lèi)型的情況下采取主動(dòng)措施。

為此,可以通過(guò)攝像頭和麥克風(fēng)分析乘客的互動(dòng)。視頻、音頻和文本模式可以提供信息,這些信息一旦被融合,就可以高度準(zhǔn)確地預(yù)測(cè)緊張局勢(shì)的發(fā)生。 深度學(xué)習(xí)的各種進(jìn)展和變壓器模型的成功代表了在這方面的一個(gè)新的重大進(jìn)展。BERT模型(英語(yǔ))、Roberta和CamemBERT模型(法語(yǔ))提高了問(wèn)題回答、文本總結(jié)任務(wù)等方面的全局性能。

最近的工作也將轉(zhuǎn)化器模型應(yīng)用于文本對(duì)話分析。這些方法仍然以文本模式為基礎(chǔ)。

今天,由于3D-CNN(C3D)[5]和Residual 3D-CNN(R3D),視頻分析的模型能夠很好地捕捉時(shí)空信息。 關(guān)于音頻分析,最常見(jiàn)的方法是用開(kāi)放的SMILE等框架在一個(gè)短滑動(dòng)窗口中提取音頻特征。然后,它們通常被送入一個(gè)像LSTM這樣的順序模型。

為了提高性能,一個(gè)直觀的策略是將音頻視頻分析與音頻流中的轉(zhuǎn)錄文本相結(jié)合。這種方法比單獨(dú)的視頻和音頻模式包含更多的信息。 汽車(chē)領(lǐng)域本質(zhì)上是一個(gè)嘈雜的環(huán)境:變化的燈光、陽(yáng)光照射、道路振動(dòng)或其他駕駛汽車(chē)產(chǎn)生的音頻噪音等都是可以降低模型精度的干擾。多模態(tài)可以提高交互分析的整體性能,并可以增加模型的穩(wěn)健性。

然而,在多模式交互分析中發(fā)現(xiàn)的三個(gè)汽車(chē)挑戰(zhàn)如下:

● 公共現(xiàn)場(chǎng)數(shù)據(jù)集的可用性。

● 視頻、音頻和文本等非異構(gòu)形式的融合。

模擬人類(lèi)互動(dòng)的復(fù)雜性。

實(shí)際上,據(jù)我們所知,文獻(xiàn)并沒(méi)有同時(shí)處理所有這些問(wèn)題。我們將在下文中討論它們。

鑒于這些見(jiàn)解,本文著重于為行業(yè)應(yīng)用記錄可開(kāi)發(fā)的數(shù)據(jù)集,并設(shè)計(jì)第一種方法來(lái)展示多模態(tài)對(duì)人類(lèi)交互解釋的的好處。與文獻(xiàn)的不同之處在于我們?cè)谲?chē)輛背景下的真實(shí)數(shù)據(jù)集和我們的多模式交互策略。

第二節(jié)介紹了關(guān)于多模態(tài)對(duì)話分析的文獻(xiàn)回顧。在第三節(jié)中,詳細(xì)介紹了記錄我們自己的數(shù)據(jù)集及其規(guī)格的協(xié)議。第四節(jié)詳細(xì)介紹了多模態(tài)方法,以進(jìn)行級(jí)別交互分類(lèi)。

II.相關(guān)工作

在文獻(xiàn)中,大部分的對(duì)話、互動(dòng)和溝通分析都是基于文本的。最近的調(diào)查,如多模態(tài)的新方法,顯示了利用不同渠道的信息的好處。每個(gè)多模態(tài)模型在情感分析領(lǐng)域的表現(xiàn)都優(yōu)于單模態(tài)架構(gòu)的模型。 這些方法都是基于特征層面的融合,從三種不同的模式,即視頻、音頻和文本中提取特征。

然后,應(yīng)用一個(gè)復(fù)雜的后期融合策略。 我們發(fā)現(xiàn)最近有一些關(guān)于多模態(tài)對(duì)話分析的工作。他們專(zhuān)注于對(duì)話中的情感和情緒分析。所有這些工作都是基于公共數(shù)據(jù)集如MOSI。 層次注意網(wǎng)絡(luò)(HAN)架構(gòu)在文檔分析上與Transformer的表現(xiàn)非常好。最近的方法,如[3],正在使用Transformer進(jìn)行對(duì)話分析。由于有口語(yǔ)文本和一個(gè)小數(shù)據(jù)集,HAN方法似乎是最適合的。

在交互分析中,說(shuō)話人以前的行為對(duì)于更準(zhǔn)確地理解其現(xiàn)在和未來(lái)的行為至關(guān)重要。如今,深度學(xué)習(xí)架構(gòu)無(wú)法處理大量的視頻。在我們的方法中使用全狀態(tài)的時(shí)間模型將能夠在場(chǎng)景持續(xù)時(shí)間內(nèi)跟蹤信息。

在駕駛艙乘客互動(dòng)分析的背景下,這種調(diào)查是邊緣化的,因此,仍然是一個(gè)科學(xué)挑戰(zhàn)。

III.車(chē)輛中的多模態(tài)對(duì)話語(yǔ)料庫(kù)

本節(jié)詳細(xì)介紹了用于記錄多模態(tài)數(shù)據(jù)集的協(xié)議。主要目的是對(duì)三種不同類(lèi)型的互動(dòng)進(jìn)行分類(lèi)。第一種類(lèi)型是 "正常/好奇 "類(lèi),兩個(gè)參與者進(jìn)行了友好的討論。第二種類(lèi)型的互動(dòng)是 "有爭(zhēng)議的拒絕",即后排乘客誠(chéng)懇地拒絕了司機(jī)的提議。最后一種是完全拒絕司機(jī)的提議,被稱(chēng)為 "沒(méi)有爭(zhēng)論的拒絕"。

A.數(shù)據(jù)集的目的

數(shù)據(jù)集旨在記錄汽車(chē)駕駛艙內(nèi)兩名乘客之間的互動(dòng)。一名司機(jī)和一名后座乘客(右側(cè))正在扮演預(yù)先設(shè)定好的場(chǎng)景。參與者是沒(méi)有任何表演技能的法國(guó)志愿者。 每個(gè)參與者的錄音會(huì)話持續(xù)7分鐘,將每個(gè)會(huì)話分為四個(gè)連續(xù)階段。本文只分析了表演階段: 1) 沉默的60秒, 2) 180s的演戲。 3) 沉默的60秒, 4) 與車(chē)載信息娛樂(lè)系統(tǒng)(IVI)進(jìn)行120s的互動(dòng)。 在表演階段,司機(jī)始終扮演著堅(jiān)持不懈的賣(mài)家這一角色,而乘客則扮演以下三種行為中的一種: ● "對(duì)司機(jī)的提議感到好奇" . ● "用論證的方式拒絕該提議" ● "斷然拒絕該提議" . 司機(jī)對(duì)所發(fā)生的情況一無(wú)所知,也從不事先知道乘客的行為。他經(jīng)歷了這種情況。由于協(xié)議的原因,我們選擇了堅(jiān)持不懈的賣(mài)家場(chǎng)景,而不是攻擊性場(chǎng)景。

b4a663a8-427b-11ed-96c9-dac502259ad0.png

圖1.記錄裝置的輸入視圖

事實(shí)上,如果愿意扮演現(xiàn)實(shí)中的攻擊性場(chǎng)景,迫使不同的受試者遵循一個(gè)心理協(xié)議的設(shè)置,將是非常有限制性的。

B.采集設(shè)置

對(duì)于這樣的記錄場(chǎng)景,我們配備了一輛Dacia duster汽車(chē)。錄音裝置由6個(gè)攝像頭、4個(gè)麥克風(fēng)和安裝在汽車(chē)引擎蓋上的一個(gè)屏幕組成。該屏幕位于駕駛員視野前方,乘客也可以看到。它有兩個(gè)目的:第一個(gè)目的是指示他們何時(shí)必須改變行動(dòng)階段。第二種是通過(guò)流媒體播放道路視頻來(lái)吸引司機(jī)的注意力,因?yàn)槠?chē)是靜止的。所有與汽車(chē)的交互都是可用的(車(chē)輪、變速桿等)。

最后,在錄音過(guò)程中播放任何環(huán)境聲音,如發(fā)動(dòng)機(jī)、大自然、音樂(lè)。設(shè)置如圖1所示。

1)視頻流:機(jī)載相機(jī)的分辨率、視角和鏡頭都不同。我們的方法是對(duì)2號(hào)攝像機(jī)(ID=C2,見(jiàn)圖2)給予特權(quán)。它是一個(gè)手動(dòng)對(duì)焦的攝像機(jī),記錄分辨率為1920×1080像素。它的位置是為了有一個(gè)正面的視角,見(jiàn)圖1。 由于天花板上有燈,我們?cè)O(shè)置了攝像機(jī)的可用參數(shù),以獲得車(chē)內(nèi)的最佳圖像質(zhì)量。

2)音頻流:四個(gè)相同的傳聲器Brel&Kjaer預(yù)極化1/4英寸的4958型被設(shè)置在不同的車(chē)輛區(qū)域記錄了音頻流。我們的方法只使用天花板上的驅(qū)動(dòng)器麥克風(fēng)(ID = M1見(jiàn)圖2)。 采樣鏈內(nèi)的每個(gè)傳聲器都用Brel&Kjaer 4231型傳聲器校準(zhǔn)器進(jìn)行校準(zhǔn),所有的輸入信號(hào)電平設(shè)置為-18dB/1kHz。我們將所有視頻流保存為RAW格式(無(wú)實(shí)時(shí)壓縮)。音頻流也以RAW格式保存,以不損失質(zhì)量。

C.數(shù)據(jù)集的預(yù)處理和標(biāo)注

由于錄音設(shè)置的配置,后期處理工作是無(wú)法避免的。事實(shí)上,錄音過(guò)程中產(chǎn)生了視頻和音頻流之間的時(shí)間延遲。

圖2.2號(hào)攝像機(jī)的視角 為了使六個(gè)視頻和四個(gè)音頻流同步,我們使用了Adobe premiere pro。最后,這些視頻被壓縮成mp4格式。因?yàn)樗哂凶詈玫膱D像和燈光質(zhì)量,所以在我們的實(shí)驗(yàn)中只使用2號(hào)攝像機(jī)(見(jiàn)圖2)。所有其他相機(jī)將被考慮用于未來(lái)的調(diào)查。

為了獲得三種模式的數(shù)據(jù)集,我們從音頻流中轉(zhuǎn)錄文本。經(jīng)過(guò)一些實(shí)驗(yàn),避免使用自動(dòng)語(yǔ)音轉(zhuǎn)錄(ASR),如Amazon transcribe或Google speech to text,因?yàn)樗鼈兊膯卧~錯(cuò)誤率非常高。在這種口頭語(yǔ)境中,有大量的重復(fù)、感嘆詞和孤立的詞語(yǔ)。此外,這些句子的結(jié)構(gòu)可能很奇怪(不一定是主謂互補(bǔ))。

在這種情況下,ASR的表現(xiàn)是不充分的。 ELAN1軟件被用來(lái)轉(zhuǎn)錄數(shù)據(jù)集。它是一個(gè)手動(dòng)注解工具,旨在為視頻和音頻數(shù)據(jù)創(chuàng)建、編輯和可視化注解。將每個(gè)演員的音頻流轉(zhuǎn)錄成語(yǔ)料,從而產(chǎn)生了2026個(gè)語(yǔ)料的總數(shù)。作為提醒,語(yǔ)詞是一個(gè)連續(xù)的語(yǔ)音單位,以明確的停頓開(kāi)始和結(jié)束。轉(zhuǎn)錄稿由一名同行審核。

為了節(jié)省時(shí)間,與其他數(shù)據(jù)集相比,我們決定在場(chǎng)景層面進(jìn)行注釋?zhuān)驗(yàn)槠渌麛?shù)據(jù)集的注釋是在語(yǔ)料層面。這個(gè)標(biāo)簽是在錄音開(kāi)始時(shí)為整個(gè)表演序列確定的。這種選擇的后果是,如果被試者扮演的角色非常糟糕,就會(huì)引起錯(cuò)誤的標(biāo)簽。我們將在定性分析中再來(lái)討論這些問(wèn)題(見(jiàn)V-B節(jié))。

D.語(yǔ)料庫(kù)的規(guī)范和理解

數(shù)據(jù)集包括22名參與者(4名女性/18名男性)的44個(gè)視頻。每個(gè)參與者按隨機(jī)順序扮演一次司機(jī)和一次乘客。所有的互動(dòng)加起來(lái),每個(gè)視頻大約有46個(gè)句子,總共有2026個(gè)句子。它總共代表了21 966個(gè)單詞,包含2082個(gè)獨(dú)特的單詞??偣灿?小時(shí)48分鐘的視頻,即54分鐘的好奇場(chǎng)景,27分鐘的有爭(zhēng)議的拒絕場(chǎng)景,27分鐘的無(wú)爭(zhēng)議的拒絕場(chǎng)景。我們自愿在記錄的數(shù)據(jù)量中加入不對(duì)稱(chēng)性,以考慮到在真實(shí)情況下,好奇類(lèi)將是通常的行為。
b6ed1ce2-427b-11ed-96c9-dac502259ad0.png

當(dāng)進(jìn)行行為或情感分析時(shí),說(shuō)話者的依賴(lài)性是一個(gè)關(guān)鍵點(diǎn)。這個(gè)想法是為了評(píng)估算法在處理新說(shuō)話者時(shí)的泛化能力。為此目的,通過(guò)選擇20名受試者進(jìn)行培訓(xùn)和2名受試者進(jìn)行驗(yàn)證,生成了所有不同的培訓(xùn)/驗(yàn)證文件。分別代表80%的訓(xùn)練數(shù)據(jù),代表20%的驗(yàn)證數(shù)據(jù)。 在實(shí)踐中觀察到視頻模式比音頻和文本模式的信息量要少。

在汽車(chē)環(huán)境中,由于安全帶的作用,乘客大多是靜止的,而司機(jī)則專(zhuān)注于駕駛?cè)蝿?wù),限制了頭部的運(yùn)動(dòng)。在基于多模態(tài)數(shù)據(jù)集的情感或?qū)υ挿治鲋幸材苡^察到這種見(jiàn)解。見(jiàn)[19]、[14]的結(jié)果。 當(dāng)對(duì)數(shù)據(jù)集的時(shí)間進(jìn)行統(tǒng)計(jì)分析時(shí),可以發(fā)現(xiàn)司機(jī)和乘客行為的有趣模式。

由于人類(lèi)并不是每隔10秒就會(huì)改變他們的情緒或行為,我們?cè)?5秒的分析窗口中繪制特征。這個(gè)Github link2 提供了繪制的圖表。 平均交談、平均持續(xù)時(shí)間和平均沉默繪圖對(duì)應(yīng)這15s內(nèi)數(shù)值的平均值,對(duì)于眼神接觸和乘客能見(jiàn)度我們計(jì)算頻率。這個(gè)15s只是為了統(tǒng)計(jì)分析的目的。大于40s的值會(huì)使曲線呈平面狀,沒(méi)有可能進(jìn)行推導(dǎo)。

本地描述符圖的設(shè)計(jì)靈感來(lái)自于[20]。 在檢查了音頻視頻流并分析了圖表后,我們能夠?qū)W⒂谝韵?a target="_blank">手工制作的功能。一共計(jì)算了7個(gè)值,其中4個(gè)來(lái)自?xún)晌怀丝偷钠骄勗捄推骄掷m(xù)時(shí)間,剩下的3個(gè)是平均沉默度、眼神接觸和乘客能見(jiàn)度,即:

● 平均交談。在一個(gè)正常的對(duì)話中,平均說(shuō)話量往往在參與者之間公平分配。

● 平均持續(xù)時(shí)間。它是指講話的平均時(shí)間。作為對(duì)平均說(shuō)話時(shí)間的補(bǔ)充,講話的長(zhǎng)度是一個(gè)很好的指標(biāo),表明誰(shuí)在主導(dǎo)對(duì)話,誰(shuí)想結(jié)束對(duì)話。 ● 平均沉默。平均沉默度是衡量對(duì)話強(qiáng)度的指標(biāo)。沉默越多,討論就越差,并趨向于拒絕的情況。

● 眼睛接觸。它是指司機(jī)看向內(nèi)部后視鏡的頻率。目光接觸是與人交談時(shí)的一種自然行為。由于司機(jī)專(zhuān)注于道路和駕駛?cè)蝿?wù),他沒(méi)有其他選擇,只能看后視鏡以看到對(duì)話者。

● 乘客能見(jiàn)度。它是指乘客被攝像機(jī)看到的頻率。這是一個(gè)很好的指標(biāo),表明乘客對(duì)談話的興趣。當(dāng)我們參與討論時(shí),會(huì)自然地縮短與對(duì)話者的距離。在汽車(chē)討論的語(yǔ)境中,后排乘客向前推進(jìn)到兩個(gè)前排座位之間。

在視頻流中,它的結(jié)果是看到(或看不到)后排乘客。 關(guān)于文本模式,我們專(zhuān)注于詞的頻率分布和TF-IDF[21],以確定是否有與特定場(chǎng)景相關(guān)的詞的特定分布。這些方法在文本挖掘和分析中非常普遍。 我們計(jì)算兩個(gè)相反類(lèi)別("好奇 "和 "未辯駁的拒絕")之間的絕對(duì)TF-IDF delta值,得到以下10個(gè)最重要的delta詞:je, pas, vous, ouais, tu, non, moi, oui, donc和ah interjection。文本模式其實(shí)并不豐富,只有2082個(gè)不同的詞。

由于受試者不是真正的演員,我們觀察到兩個(gè)階段的過(guò)渡。第一階段是設(shè)置階段:在每個(gè)場(chǎng)景的前30秒,受試者不能堅(jiān)持或斷然拒絕導(dǎo)致 "糟糕的演技"。第二個(gè)是在最后:受試者的靈感耗盡,在每個(gè)場(chǎng)景的最后20秒內(nèi)造成呼吸短促。

IV.多模態(tài)分析

在完成記錄和注釋數(shù)據(jù)集的過(guò)程后,我們?cè)O(shè)計(jì)了一個(gè)基于視頻、音頻和文本分析的多模態(tài)方法。我們的任務(wù)是設(shè)計(jì)一個(gè)模型,能夠?qū)⒁暵?tīng)流分為三個(gè)類(lèi)別,對(duì)應(yīng)于三種情況("好奇"、"有爭(zhēng)辯的拒絕"、"無(wú)爭(zhēng)辯的拒絕")。

A.視頻和音頻分析

我們的方法包括為音頻和視頻模式提取高水平的手工制作的特征。在視頻分析中,汽車(chē)背景的優(yōu)勢(shì)在于乘客是靜態(tài)的??梢岳眠@一點(diǎn)來(lái)了解乘客在視頻中的位置。如果在橫軸的中間切開(kāi)畫(huà)面,司機(jī)在右邊,后排乘客在左邊。為了提取 "司機(jī)眼神接觸 "的特征,使用openCV作為人臉提取器,然后使用hyperface來(lái)提取每一幀上人臉的歐拉角。

最后,在Yaw和Pitch軸上的K-means聚類(lèi)算法確定了司機(jī)在看后視鏡時(shí)的幾個(gè)歐拉角(圖3中的綠色)。傾斜度不提供額外的信息。 對(duì)于后座乘客的能見(jiàn)度,再次使用openCV在每一幀上檢測(cè)后座乘客的臉。 然后,在語(yǔ)料層面重新調(diào)整音頻和視頻特征,以便在所有三種模式完全一致的情況下向神經(jīng)網(wǎng)絡(luò)模型提供信息。

b7044ec6-427b-11ed-96c9-dac502259ad0.png

圖3.駕駛員頭部方向的聚類(lèi)推斷聚類(lèi)推斷 我們計(jì)算了上述所有特征的皮爾遜相關(guān)矩陣,如公式(1)中所規(guī)定的。其目的是通過(guò)強(qiáng)調(diào)特征對(duì)X和Y之間的線性相關(guān)性來(lái)證實(shí)對(duì)這七個(gè)手工制作的特征的選擇。

b73d4a96-427b-11ed-96c9-dac502259ad0.png

其中cov是協(xié)方差,σ指X的標(biāo)準(zhǔn)差,σx是Y的標(biāo)準(zhǔn)差,μ是X的平均值,μx是Y的平均值,i指加權(quán)平均的廣義。 表二和表三顯示了音頻和視頻特征之間明顯的相關(guān)性。有趣的關(guān)聯(lián)是司機(jī)眼神接觸的增強(qiáng)和乘客能見(jiàn)度的關(guān)聯(lián)。沉默的平均值也與眼神接觸特征的減少相關(guān)。這種相關(guān)性證明了在人際交往中視頻和音頻之間存在著聯(lián)系。

我們?yōu)檫@七個(gè)特征定義了以下縮寫(xiě)。Msp指的是平均發(fā)言,Mdur指的是平均持續(xù)時(shí)間,nbrE指的是交流次數(shù),eyeC指的是眼神接觸,Pvisi指的是乘客可見(jiàn)度,Nsil指的是沉默的次數(shù)。 最后,這七個(gè)特征被送入多層感知器(MLP)。它被設(shè)計(jì)為有兩個(gè)隱藏層和一個(gè)輸出層來(lái)生成預(yù)測(cè)。一些評(píng)估顯示,這七個(gè)特征帶來(lái)了最好的性能。

b754afb0-427b-11ed-96c9-dac502259ad0.pngb76aaec8-427b-11ed-96c9-dac502259ad0.png

B.文本分析

關(guān)于文本分析,面臨三個(gè)主要問(wèn)題。一個(gè)是由于使用了法語(yǔ)。事實(shí)上,每一個(gè)框架和預(yù)訓(xùn)練的模型,如Spacy,NLTK,BERT都很適合英語(yǔ)分析,但在法語(yǔ)上的表現(xiàn)非常糟糕。對(duì)于法語(yǔ)來(lái)說(shuō),存在少數(shù)替代方案,但它們非常有限,因?yàn)樗鼈兪腔诠爬匣驎?shū)面的法語(yǔ)。

因此,我們?cè)诿麨镃amen- BERT的轉(zhuǎn)化器模型上獲得了糟糕的結(jié)果,該模型是在139個(gè)維基百科文本中訓(xùn)練出來(lái)的。文本的貧乏使得基本的方法(TF-IDF和嵌入+LSTM模型)是不可行的。 取代這些不精確的模型,我們實(shí)現(xiàn)了層次注意網(wǎng)絡(luò)(HAN),它最初是為文本文檔分類(lèi)器設(shè)計(jì)的。選擇這個(gè)架構(gòu)是因?yàn)樗心芰﹃P(guān)注單詞和句子兩個(gè)層面,這要?dú)w功于它的注意力機(jī)制。

這個(gè)神經(jīng)網(wǎng)絡(luò)是由兩個(gè)階段建立的:

● 注意力神經(jīng)網(wǎng)絡(luò)集中在單詞層面,

● 側(cè)重于句子層面的注意力神經(jīng)網(wǎng)絡(luò)。 從詞的層面上提取的特征為另一個(gè)層面提供支持。 我們修改了原來(lái)的實(shí)現(xiàn),將句子層的基本GRU層替換為滿狀態(tài)GRU。這種修改使模型能夠隨著時(shí)間的推移跟蹤隱藏的狀態(tài),從而提高全局性能。 這個(gè)模型的超參數(shù)是根據(jù)經(jīng)驗(yàn)調(diào)整的:

● 嵌入層的輸入是數(shù)據(jù)集中代表度最高的500個(gè)詞。輸出是一個(gè)大小為100的特征向量。

● 64個(gè)單元的單詞和句子GRU。

● 一個(gè)大小為100的向量,用于單詞模型的嵌入層的輸出。

C.線索融合

本節(jié)詳細(xì)介紹了基于音頻、視頻、文本和時(shí)間演變的后期融合方法。晚期融合是在非異質(zhì)模態(tài)情況下的通常策略。圖4描述了模型。綠色部分是指從所有模式中提取特征,橙色部分是指這些特征的時(shí)間融合。 融合后,從三種模式中提取的所有特征。前32個(gè)特征是利用HAN模型從文本中提取的,剩下的4個(gè)特征是從III-D節(jié)中定義的7個(gè)手工制作的特征中提取的:司機(jī)和乘客的平均談話時(shí)間和平均持續(xù)時(shí)間,沉默的平均值,乘客的能見(jiàn)度和司機(jī)的眼神接觸。


b7b3a592-427b-11ed-96c9-dac502259ad0.png

圖4.我們的融合模型

它的結(jié)果是,在串聯(lián)之后,形成一個(gè)大小為36的向量。然后,這個(gè)向量被送入一個(gè)名為GRU的兩個(gè)全狀態(tài)時(shí)空循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的堆棧。關(guān)于RNN的完整評(píng)論見(jiàn)[8]。然后,給出一個(gè)全連接(FC)層提供信息,以進(jìn)行情景預(yù)測(cè)。全狀態(tài)模型的概念將在下一節(jié)詳述。

D.實(shí)施細(xì)節(jié)

當(dāng)研究多模態(tài)和時(shí)間背景時(shí),一些自由參數(shù)、模型和訓(xùn)練過(guò)程是再重要不過(guò)了。 根據(jù)經(jīng)驗(yàn),滑動(dòng)分析窗口被設(shè)定為T(mén)=35,因?yàn)樗鼘?dǎo)致了最佳結(jié)果。 各窗口之間的上下文是提高模型精度的關(guān)鍵。特別是在對(duì)話中,情景會(huì)發(fā)生變化,捕捉這種變化會(huì)提供很多信息。

作為人類(lèi),如果我們有多個(gè)按時(shí)間順序排列的分析窗口,就比打亂順序的分析窗口更容易理解情況。我們通過(guò)使用全狀態(tài)的GRU來(lái)實(shí)現(xiàn)這一概念。RNN只記得在一個(gè)序列中發(fā)生的事情。一個(gè)序列可以是一組句子,一組特征,等等。在每個(gè)通過(guò)的序列的初始時(shí)間點(diǎn),隱藏狀態(tài)被初始化并設(shè)置為0,這意味著沒(méi)有以前的信息。

在該方法中,用前一個(gè)分析窗口的隱藏狀態(tài)來(lái)取代零初始化。在融合中應(yīng)用,它可以跟蹤視頻從開(kāi)始到結(jié)束的所有特征的演變。 全狀態(tài)的RNN必須逐個(gè)視頻進(jìn)行訓(xùn)練。每個(gè)視頻在?y上被切割成大約180/35=5個(gè)子序列視頻片段。然后,它們被按時(shí)間順序逐一送入模型。這種訓(xùn)練方法只產(chǎn)生了44*5=220個(gè)訓(xùn)練樣本。

為了增加訓(xùn)練集,我們轉(zhuǎn)移了分析窗口的起點(diǎn),以產(chǎn)生400個(gè)樣本。這種移位在每個(gè)視頻上進(jìn)行四次,在每次迭代中,分析窗口的起點(diǎn)被移位10s。 如前所述,數(shù)據(jù)集的限制迫使我們丟棄訓(xùn)練樣本的前30秒。在訓(xùn)練和驗(yàn)證階段,我們會(huì)刪除這些文件。 為了訓(xùn)練多模態(tài)模型,我們使用預(yù)訓(xùn)練技術(shù)。HAN模型首先被訓(xùn)練了大約80個(gè)歷時(shí)。

然后,當(dāng)它達(dá)到最佳精度點(diǎn)時(shí),就被保存起來(lái)。最后,在多模態(tài)訓(xùn)練階段的開(kāi)始,保存的HAN模型被加載以初始化多模態(tài)模型的HAN權(quán)重。沒(méi)有這種方法,多模態(tài)模型將無(wú)法銜接。除了最后一個(gè)FC層之外,凍結(jié)加載模型的權(quán)重也被考慮,但它會(huì)導(dǎo)致較差的性能結(jié)果。 由于正在處理一個(gè)多類(lèi)問(wèn)題,所以使用交叉熵?fù)p失,其定義如公式(2)。


b7d06272-427b-11ed-96c9-dac502259ad0.png

其中y?是模型對(duì)C類(lèi)的輸出分?jǐn)?shù)。

V.評(píng)估和相關(guān)分析

首先,本節(jié)介紹定量評(píng)估。其次,提出了一個(gè)定性的分析,并給出了一些預(yù)測(cè)。

A.定量評(píng)估

為了訓(xùn)練和驗(yàn)證我們的模型,隨機(jī)產(chǎn)生了五種不同的訓(xùn)練/驗(yàn)證文件。每次,將數(shù)據(jù)集分別分成80%(18名參與者)和20%(4名參與者),用于訓(xùn)練和驗(yàn)證階段。使用平衡精度作為衡量標(biāo)準(zhǔn)來(lái)評(píng)估我們的模型。平衡準(zhǔn)確率的定義見(jiàn)公式(3)。當(dāng)在每個(gè)類(lèi)別中沒(méi)有平衡的樣本數(shù)量時(shí),它是強(qiáng)制性的。
b7ef04b6-427b-11ed-96c9-dac502259ad0.png

它是每個(gè)類(lèi)i的召回分?jǐn)?shù)的宏觀平均數(shù),其相關(guān)權(quán)重i相對(duì)于其真實(shí)類(lèi)yi的反向流行率。y?i是樣本i的推斷值。

b81477f0-427b-11ed-96c9-dac502259ad0.png

表四總結(jié)了結(jié)果。音頻和視頻特征獲得了60%的平衡準(zhǔn)確率,考慮到模型的大小和特征數(shù)量的限制,這是很有希望的。

b82590d0-427b-11ed-96c9-dac502259ad0.png

圖5.平衡精度與時(shí)間的關(guān)系實(shí)例

文本模型執(zhí)行了70%的平衡精度。該融合方法導(dǎo)致了良好的結(jié)果,因?yàn)榕c純文本模式相比,它提高了11%的平衡準(zhǔn)確性。標(biāo)準(zhǔn)差是由交叉驗(yàn)證策略引起的五個(gè)標(biāo)準(zhǔn)差的平均值。 圖5顯示了一個(gè)驗(yàn)證集的例子。圖中的指標(biāo)是隨時(shí)間變化的平衡精度。更具體地說(shuō),它是對(duì)窗口T中的時(shí)間t存在的文件的平衡準(zhǔn)確性。當(dāng)模型考慮到視頻的90%時(shí),它能夠以99%的準(zhǔn)確率預(yù)測(cè)類(lèi)別。

B.定性評(píng)估

我們恢復(fù)所有被錯(cuò)誤分類(lèi)的文件,以實(shí)現(xiàn)對(duì)方法正確理解。 得出了以下結(jié)論。主要的限制在于數(shù)據(jù)集部分,受試者有時(shí)不能按照要求的行為發(fā)揮他們的作用。駕駛艙環(huán)境也是視頻模式的一個(gè)限制,因?yàn)槌丝驮谶@個(gè)環(huán)境中大部分時(shí)間是靜止的,限制了視覺(jué)信息。其余的誤差是由于模型的錯(cuò)誤分類(lèi)造成的。我們期望 "有爭(zhēng)論的拒絕 "類(lèi)別的數(shù)據(jù)分布在其他兩個(gè)類(lèi)別的中間。該模型有時(shí)很難將 "有爭(zhēng)論的拒絕 "歸入正確的類(lèi)別。見(jiàn)圖6中的混淆矩陣。

另一個(gè)導(dǎo)致錯(cuò)誤分類(lèi)的問(wèn)題是一些受試者的糟糕演技。例如,一些受試者在拒絕場(chǎng)景中的表演階段中笑場(chǎng)。或者一個(gè)受試者在回頭看后排乘客時(shí)表現(xiàn)得很反常。

VI.結(jié)論和未來(lái)工作

本文描述了一個(gè)真實(shí)車(chē)輛環(huán)境下的多模態(tài)交互數(shù)據(jù)集。用該模型得到的性能是很有希望的。多模態(tài)和全狀態(tài)RNN方法顯著提高了性能。

b86db036-427b-11ed-96c9-dac502259ad0.png

圖6.混淆矩陣的例子

通過(guò)5個(gè)不同的交叉驗(yàn)證集,我們得到了81%的最終平衡精度。 未來(lái)的工作將按以下方式進(jìn)行:將設(shè)計(jì)一個(gè)新的端到端模型來(lái)攝取視頻和音頻數(shù)據(jù),而無(wú)需手工制作過(guò)程。它將遵循本文提出的方法。然后,我們將在考慮到計(jì)算資源的情況下,在真正的汽車(chē)嵌入硬件中實(shí)現(xiàn)我們兩種方法中最好的一種。




審核編輯:劉清

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 電動(dòng)汽車(chē)
    +關(guān)注

    關(guān)注

    156

    文章

    12420

    瀏覽量

    234576
  • 控制器
    +關(guān)注

    關(guān)注

    114

    文章

    17098

    瀏覽量

    184201
  • 汽車(chē)駕駛
    +關(guān)注

    關(guān)注

    0

    文章

    10

    瀏覽量

    8674
  • 轉(zhuǎn)化器
    +關(guān)注

    關(guān)注

    0

    文章

    26

    瀏覽量

    10706

原文標(biāo)題:汽車(chē)駕駛艙內(nèi)多模態(tài)人機(jī)交互分析

文章出處:【微信號(hào):阿寶1990,微信公眾號(hào):阿寶1990】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    蘇州唯理科技神經(jīng)腕帶肌電臂環(huán)人機(jī)交互演示

    人機(jī)交互
    jf_74911425
    發(fā)布于 :2025年07月08日 22:02:34

    汽車(chē)模態(tài)交互測(cè)試:智能交互的深度驗(yàn)證

    汽車(chē)智能座艙測(cè)試的關(guān)鍵進(jìn)程中,北京沃華慧通測(cè)控技術(shù)有限公司展現(xiàn)出了獨(dú)特的價(jià)值與優(yōu)勢(shì)。作為家專(zhuān)注于測(cè)控技術(shù)領(lǐng)域的企業(yè),沃華慧通在智能座艙測(cè)試方面積累了豐富的經(jīng)驗(yàn)和專(zhuān)業(yè)的技術(shù)能力。其研發(fā)的測(cè)試設(shè)備能夠精準(zhǔn)模擬各種復(fù)雜的車(chē)載環(huán)境,對(duì)智能座艙的
    的頭像 發(fā)表于 06-25 09:00 ?833次閱讀
    <b class='flag-5'>汽車(chē)</b><b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b><b class='flag-5'>交互</b>測(cè)試:智能<b class='flag-5'>交互</b>的深度驗(yàn)證

    聲智科技全球首發(fā)新一代人機(jī)交互框架

    全球人工智能產(chǎn)業(yè)正經(jīng)歷人機(jī)交互范式升級(jí)。過(guò)去兩個(gè)月中,以O(shè)penAI、Meta為代表的行業(yè)領(lǐng)軍企業(yè)加速推進(jìn)交互技術(shù)創(chuàng)新迭代,推動(dòng)產(chǎn)業(yè)進(jìn)入關(guān)鍵變革期。值得關(guān)注的是,a16z合伙人Olivia
    的頭像 發(fā)表于 05-12 10:28 ?406次閱讀
    聲智科技全球首發(fā)新<b class='flag-5'>一代人機(jī)交互</b>框架

    具身智能工業(yè)機(jī)器人人機(jī)交互設(shè)計(jì):重新定義人機(jī)協(xié)作新體驗(yàn)

    在工業(yè) 4.0 時(shí)代,機(jī)器人不再是冰冷的機(jī)械臂,而是成為與人類(lèi)協(xié)同創(chuàng)造價(jià)值的 “智能伙伴”。富唯智能憑借具身智能工業(yè)機(jī)器人人機(jī)交互設(shè)計(jì),突破傳統(tǒng)操作界面的局限,通過(guò)自然語(yǔ)言、手勢(shì)識(shí)別、力控反饋等模態(tài)
    的頭像 發(fā)表于 04-07 15:02 ?379次閱讀

    ?模態(tài)交互技術(shù)解析

    。它的核心目標(biāo)是模擬人類(lèi)感官協(xié)同的溝通方式,提供更高效、靈活和人性化的人機(jī)交互體驗(yàn)。 核心特點(diǎn) 通道融合 :整合多種輸入/輸出方式(如語(yǔ)音+手勢(shì)+視覺(jué))。 自然交互 :模仿人類(lèi)
    的頭像 發(fā)表于 03-17 15:12 ?2033次閱讀

    為什么開(kāi)關(guān)柜人機(jī)交互裝置集成鍵順控,可以替代開(kāi)關(guān)柜操顯裝置

    蜀瑞創(chuàng)新科普:開(kāi)關(guān)柜人機(jī)交互裝置集成鍵順控在功能集成與簡(jiǎn)化操作、智能化與遠(yuǎn)程監(jiān)控以及可靠性與安全性等方面均表現(xiàn)出顯著優(yōu)勢(shì)。這些優(yōu)勢(shì)使得集成鍵順控的人機(jī)交互裝置能夠替代傳統(tǒng)的開(kāi)關(guān)柜智
    的頭像 發(fā)表于 03-07 10:21 ?545次閱讀
    為什么開(kāi)關(guān)柜<b class='flag-5'>人機(jī)交互</b>裝置集成<b class='flag-5'>一</b>鍵順控,可以替代開(kāi)關(guān)柜操顯裝置

    海康威視發(fā)布模態(tài)大模型搜存儲(chǔ)系列產(chǎn)品

    模態(tài)大模型為安防行業(yè)帶來(lái)重大技術(shù)革新,基于觀瀾大模型技術(shù)體系,??低晫⒋髤?shù)量、大樣本量的圖文模態(tài)大模型與嵌入式智能硬件深度融合,發(fā)布
    的頭像 發(fā)表于 02-18 10:33 ?683次閱讀

    清華牽頭深開(kāi)鴻參與:混合智能人機(jī)交互系統(tǒng)獲批立項(xiàng)

    近日,個(gè)由清華大學(xué)牽頭、深開(kāi)鴻重點(diǎn)參與的“面向混合智能的自然人機(jī)交互軟硬件系統(tǒng)”研發(fā)計(jì)劃項(xiàng)目,正式獲得了立項(xiàng)批準(zhǔn)。該項(xiàng)目是國(guó)家“十四五”重點(diǎn)研發(fā)計(jì)劃“先進(jìn)計(jì)算與新興軟件”專(zhuān)項(xiàng)中的項(xiàng)關(guān)鍵核心技術(shù)
    的頭像 發(fā)表于 01-23 16:33 ?829次閱讀

    理解模態(tài)大語(yǔ)言模型——下

    /understanding-multimodal-llms ? 《理解模態(tài)大語(yǔ)言模型 - 上》介紹了什么是
    的頭像 發(fā)表于 12-03 15:18 ?587次閱讀
    <b class='flag-5'>一</b><b class='flag-5'>文</b>理解<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>大語(yǔ)言模型——下

    上海交大團(tuán)隊(duì)發(fā)表MEMS視觸覺(jué)融合模態(tài)人機(jī)交互新進(jìn)展

    驅(qū)動(dòng)的可拉伸觸覺(jué)陣列捕捉可形變物體的力學(xué)交互)為題,在國(guó)際著名期刊《Nature Communications》上發(fā)表。 研究背景 觸覺(jué)感知是獲取環(huán)境信息的重要渠道之,在人機(jī)交互、虛擬
    的頭像 發(fā)表于 11-28 10:50 ?2428次閱讀
    上海交大團(tuán)隊(duì)發(fā)表MEMS視觸覺(jué)融合<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b><b class='flag-5'>人機(jī)交互</b>新進(jìn)展

    芯??萍糉orceTouch3.0:重塑人機(jī)交互新境界

    在追求極致用戶(hù)體驗(yàn)的智能時(shí)代,每次技術(shù)的革新都是對(duì)未來(lái)的深度探索。芯??萍?,作為業(yè)界領(lǐng)先的芯片設(shè)計(jì)企業(yè),憑借其ForceTouch3.0技術(shù),正引領(lǐng)著場(chǎng)人機(jī)交互的變革,為智能手機(jī)、智能穿戴、家電乃至
    的頭像 發(fā)表于 11-28 09:20 ?635次閱讀
    芯??萍糉orceTouch3.0:重塑<b class='flag-5'>人機(jī)交互</b>新境界

    新的人機(jī)交互入口?大模型加持、AI眼鏡賽道開(kāi)啟百鏡大戰(zhàn)

    電子發(fā)燒友網(wǎng)報(bào)道(/莫婷婷)隨著智能眼鏡的出現(xiàn),加之AI技術(shù)的應(yīng)用,AI智能眼鏡被認(rèn)為是下一代人機(jī)交互的入口。在今年,不少品牌廠商都推出了AI智能眼鏡新品,包括李未可推出的Meta Lens
    的頭像 發(fā)表于 11-21 00:57 ?3977次閱讀
    新的<b class='flag-5'>人機(jī)交互</b>入口?大模型加持、AI眼鏡賽道開(kāi)啟百鏡大戰(zhàn)

    具身智能對(duì)人機(jī)交互的影響

    在人工智能的發(fā)展歷程中,人機(jī)交互直是研究的核心領(lǐng)域之。隨著技術(shù)的進(jìn)步,人機(jī)交互的方式也在不斷演變。從最初的命令行界面,到圖形用戶(hù)界面,再到現(xiàn)在的自然語(yǔ)言處理和語(yǔ)音識(shí)別,每
    的頭像 發(fā)表于 10-27 09:58 ?956次閱讀

    聚徽-工控體機(jī)是如何實(shí)現(xiàn)人機(jī)交互

    工控體機(jī)實(shí)現(xiàn)人機(jī)交互的方式是多種多樣的,結(jié)合搜索結(jié)果,我們可以歸納出以下幾種主要的實(shí)現(xiàn)方式:
    的頭像 發(fā)表于 09-10 09:31 ?652次閱讀

    基于傳感器的人機(jī)交互技術(shù)

    基于傳感器的人機(jī)交互技術(shù)是現(xiàn)代科技發(fā)展的重要領(lǐng)域之,它極大地推動(dòng)了人機(jī)交互的便捷性、自然性和智能性。本文將詳細(xì)探討基于傳感器的人機(jī)交互技術(shù),包括其基本原理、關(guān)鍵技術(shù)、應(yīng)用領(lǐng)域以及未來(lái)
    的頭像 發(fā)表于 07-17 16:52 ?1709次閱讀