云知聲專(zhuān)注物聯(lián)網(wǎng)人工智能服務(wù), 通過(guò) AI 芯、AIUI、AI Service 三大解決方案支撐核心技術(shù)的落地和實(shí)現(xiàn),目前已經(jīng)在家居、汽車(chē)、醫(yī)療和教育等領(lǐng)域有廣泛應(yīng)用,形成了完整的「云端芯」生態(tài)閉環(huán)。
機(jī)器之心于近期對(duì)云知聲 CEO 黃偉進(jìn)行了專(zhuān)訪,黃偉介紹了云知聲的技術(shù)研究、「云端芯」產(chǎn)品戰(zhàn)略、在車(chē)載和醫(yī)療行業(yè)的應(yīng)用,以及對(duì)人工智能看法。
云知聲 CEO 黃偉
一、云知聲的技術(shù)研究
2012年底,我們把深度學(xué)習(xí)應(yīng)用到了語(yǔ)音識(shí)別。我們今天的技術(shù)架構(gòu)都在使用增強(qiáng)學(xué)習(xí)。
機(jī)器之心:這幾年深度學(xué)習(xí)帶來(lái)了語(yǔ)音識(shí)別的巨大進(jìn)步,云知聲是何時(shí)開(kāi)始這方面研究的?
黃偉:2012 年 12 月底,我們把深度學(xué)習(xí)應(yīng)用到了語(yǔ)音識(shí)別里,而且把它開(kāi)放出來(lái)提供給第三方。這源于 2011 年,我去佛羅倫薩參加國(guó)際語(yǔ)音會(huì)議 Interspeech,當(dāng)時(shí)和微軟研究員俞棟就深度學(xué)習(xí)的交流給了我很大信心,后來(lái),云知聲在 2012 年 6 月份成立,9 月份我們發(fā)布語(yǔ)音識(shí)別平臺(tái),之后緊跟著 10 月份我們就開(kāi)始做深度學(xué)習(xí)。
那時(shí),幾乎很少有創(chuàng)業(yè)公司敢于嘗試這個(gè)領(lǐng)域,而且我們當(dāng)時(shí)的資源也很匱乏,我們自己用了一個(gè)普通的服務(wù)器,然后又買(mǎi)了幾塊 GeForce 顯卡,其實(shí)我們很早就開(kāi)始用 GPU 了。2012 年年底,我們的深度學(xué)習(xí)系統(tǒng)將當(dāng)時(shí)的識(shí)別準(zhǔn)確率從 85% 提升到了 91% 。隨后在 2013 年 2 月份,我們做了微信上的第一個(gè)語(yǔ)音輸入插件,由于我們使用深度學(xué)習(xí)帶來(lái)了準(zhǔn)確率的明顯提升,所以這款插件的用戶(hù)體驗(yàn)非常好。
雖然我們很早把深度學(xué)習(xí)用于語(yǔ)音識(shí)別,但其實(shí)只是一個(gè)起步,當(dāng)時(shí)公司剛剛成立幾個(gè)月,不可能積累很多數(shù)據(jù),所以當(dāng)時(shí)我們的訓(xùn)練數(shù)據(jù)只有 800 小時(shí),后來(lái)隨著我們不斷增加訓(xùn)練數(shù)據(jù),今天我們的識(shí)別準(zhǔn)確率已經(jīng)能達(dá)到 97% ,屬于業(yè)內(nèi)一流水平,在噪音和口音等情況下性能也比以前更好。
機(jī)器之心:云知聲近期主要在做哪方面的研究?比如說(shuō)自然語(yǔ)言處理方面?
黃偉:我們還是有些超前意識(shí)的,今年 1 月份,就在 AlphaGo 火爆之前,我們就成立了 AI Lab,為什么可以做?首先,2012 年我們開(kāi)始做深度學(xué)習(xí),今天我們?nèi)斯ぶ悄芩械膽?yīng)用層面,圖像識(shí)別、人臉識(shí)別、語(yǔ)音識(shí)別、機(jī)器翻譯和語(yǔ)音合成,所有的技術(shù)框架都基于深度學(xué)習(xí),只是數(shù)字信號(hào)不一樣而已。所以對(duì)我們來(lái)說(shuō),我們要從語(yǔ)音拓展到其他領(lǐng)域沒(méi)有任何問(wèn)題,但只是說(shuō)我們現(xiàn)在要意識(shí)到人工智能是未來(lái),現(xiàn)在我們要做這樣的布局,這種布局不光是指你意識(shí)方面的改變,同時(shí)圍繞這個(gè)目標(biāo)你還要做人才儲(chǔ)備和資源投入。從這方面來(lái)說(shuō),從去年開(kāi)始我們一直對(duì)研發(fā)投入非常重視,每年在研發(fā)上的投入占到了 50% ,今年我們的研發(fā)投入預(yù)算和去年比超過(guò)了3倍。今年公司規(guī)模和團(tuán)隊(duì)規(guī)模也在擴(kuò)大,我們還會(huì)在硅谷設(shè)立辦公室,同時(shí)還會(huì)在一些新的技術(shù)方向進(jìn)行儲(chǔ)備和投入。
關(guān)于自然語(yǔ)言處理,我們?cè)?2013 年 9 月份就發(fā)布了語(yǔ)義云平臺(tái),到目前為止我們?cè)谡Z(yǔ)言理解方面支持的領(lǐng)域超過(guò) 50 個(gè),從 2013 年開(kāi)始我們就在做這個(gè)事情。包括給樂(lè)視及其他廠商提供的解決方案里,都會(huì)包含信號(hào)處理的降噪部分、語(yǔ)音識(shí)別部分、語(yǔ)言理解部分、用于用戶(hù)反饋的語(yǔ)音合成部分、以及用戶(hù)畫(huà)像和聲紋識(shí)別等,我們提供的是完整的解決方案。
只是說(shuō),今天的語(yǔ)言理解我們還需要做的更好一些,比如以前做一些簡(jiǎn)單對(duì)話(huà),那后面你會(huì)做一些復(fù)雜對(duì)話(huà)或者多種對(duì)話(huà),這個(gè)需要我們不斷投入。從技術(shù)來(lái)看,我們?cè)谡Z(yǔ)言理解方面,以及我們今天的技術(shù)架構(gòu)都在使用增強(qiáng)學(xué)習(xí)。因?yàn)槲覀兤脚_(tái)每天會(huì)產(chǎn)生大量數(shù)據(jù),我們會(huì)對(duì)這些歷史數(shù)據(jù)進(jìn)行總結(jié)。但增強(qiáng)學(xué)習(xí)可以對(duì)未來(lái)數(shù)據(jù)進(jìn)行預(yù)測(cè)。對(duì)于一個(gè)人工智能系統(tǒng),你不能總是等犯錯(cuò)之后再去糾正。從這個(gè)角度來(lái)講,增強(qiáng)學(xué)習(xí)是對(duì)未來(lái)一種行為的預(yù)測(cè)。這大大提升了我們對(duì)數(shù)據(jù)的利用效率。
二、云知聲的發(fā)展模式和產(chǎn)品思路
未來(lái)一切智能都是從芯片開(kāi)始的,芯片的智能化一定是通過(guò)云端實(shí)現(xiàn)的,云端智能滲透到用戶(hù)里也一定是通過(guò)芯片實(shí)現(xiàn)。
機(jī)器之心:云知聲自一開(kāi)始就堅(jiān)持平臺(tái)策略,這種發(fā)展模式背后主要有哪些思考?
黃偉:我們是做公司,而非研究院,所以說(shuō)技術(shù)指標(biāo)只是 KPI 之一,我們還需要一些商業(yè)模式和產(chǎn)品模式的探索。
我們?cè)缭?2013 年就確定了平臺(tái)戰(zhàn)略,因?yàn)槲艺J(rèn)為人工智能的前提是感知智能,你一定要先完成數(shù)據(jù)的感知,那我們的平臺(tái)就是一種最好的收集數(shù)據(jù)的方式。當(dāng)年 App 大行其道,我需要非常費(fèi)力的去給很多投資機(jī)構(gòu)解釋為什么我要做平臺(tái),而不是 App 。原因在于:1)用語(yǔ)音識(shí)別技術(shù)去做 App 意味著我要有 80% 甚至更多時(shí)間精力放在和產(chǎn)品有關(guān)的事情上,但任何一個(gè)公司在初創(chuàng)期精力都是有限的,你不可能同時(shí)有研究院、工程院,還有產(chǎn)品部門(mén)。2)做 App 之前要明確語(yǔ)音在手機(jī)上是不是剛性需求?其實(shí)直到今天,我本人也都依然對(duì)此持懷疑態(tài)度,我認(rèn)為手機(jī)是以觸碰為主,語(yǔ)音為輔的。3)我們認(rèn)為平臺(tái)戰(zhàn)略的 B2B2C 方式是一種最快到達(dá)用戶(hù)的方式,既然語(yǔ)音在手機(jī)端不是剛性需求,那你不要指望它有多少自然下載量和活躍用戶(hù),更不能指望它給你貢獻(xiàn)多少有用數(shù)據(jù)。但 B2B2C 這個(gè)方式就可以幫你和應(yīng)用場(chǎng)景結(jié)合,產(chǎn)品由你的合作方來(lái)做,用戶(hù)由產(chǎn)品渠道來(lái)獲取。這樣的話(huà),你就可以盡快的把用戶(hù)規(guī)模和基數(shù)擴(kuò)大。
在采取了平臺(tái)戰(zhàn)略后,我們的發(fā)展非??欤?013 年時(shí)已經(jīng)積累了接近 10,000 家合作伙伴,和搜狗、樂(lè)視、華為等國(guó)內(nèi)眾多知名公司建立了合作關(guān)系。如果不是靠平臺(tái)而是自己做 App 的話(huà),我們是不可能達(dá)到這樣一個(gè)量級(jí)的。
機(jī)器之心:云聲音的產(chǎn)品思路是怎樣的?是如何提出「云端芯」產(chǎn)品戰(zhàn)略的?
黃偉:上面講的是云知聲關(guān)于未來(lái)發(fā)展模式的探索,在產(chǎn)品方面我們也一直在思考。最近你會(huì)發(fā)現(xiàn),包括出門(mén)問(wèn)問(wèn)的李志飛、Face++的印奇等,這些做了3-4年公司以上的創(chuàng)始人都不會(huì)再過(guò)分強(qiáng)調(diào)技術(shù)了。所以我要講的是,公司怎樣在產(chǎn)品方面找到一個(gè)適合自己的通道。
其實(shí)我們?cè)?2013-2014 年往外走時(shí)發(fā)現(xiàn)了一些問(wèn)題。首先,并不是所有用戶(hù)的場(chǎng)景都是聯(lián)網(wǎng)的,聯(lián)網(wǎng)不能解決所有問(wèn)題;其次,SDK 的粘性比較弱,用戶(hù)的切換成本較低。也無(wú)法為用戶(hù)提供一種非常好的體驗(yàn),因?yàn)檐浖軐?shí)現(xiàn)的功能畢竟是有限的,它可以模擬,但有時(shí)候必須要用硬件,甚至芯片級(jí)的去支持,軟件是做不到的?;谶@個(gè)問(wèn)題,我們?cè)?2014 年開(kāi)始思考,未來(lái)的語(yǔ)音智能,甚至是人工智能是從哪兒開(kāi)始的,以前我們的想法是把它放在云端,用戶(hù)的數(shù)據(jù)回傳然后在云端進(jìn)行識(shí)別,麥克風(fēng)和傳感器等都是用戶(hù)的,但后來(lái)發(fā)現(xiàn)這中間是很容易割裂的。所以,經(jīng)過(guò)這樣的思考我們認(rèn)為,未來(lái)一切的智能其實(shí)都是從芯片端開(kāi)始的,芯片的智能化一定是通過(guò)云端實(shí)現(xiàn)的,云端智能滲透到用戶(hù)里也一定是通過(guò)芯片實(shí)現(xiàn)。芯片既像一個(gè)耳朵(收集信息)同時(shí)也承擔(dān)了大腦的一部分功能。如果我們用 CPU 來(lái)模擬大腦功能的話(huà),那我覺(jué)得大腦一定是由不同功能的 CPU 組合在一起的。從這個(gè)角度來(lái)講,那人工智能也應(yīng)該留在某種芯片上面實(shí)現(xiàn)一部分智能,這個(gè)芯片既像傳感器(Camera和麥克風(fēng)等),同時(shí)它也是大腦的一部分。
這就是我們?cè)?2014 年上半年確定的事情,在業(yè)內(nèi)最早提出了云端芯的產(chǎn)品戰(zhàn)略,云是智能,端是交互,芯片就是傳感器和一部分智能。
其實(shí)在那之前我對(duì)此也不是特別清晰,在 2014 年之前,我更多的還是想說(shuō)怎么把技術(shù)做好,后來(lái)從 2012 年到 2014 年差不多兩年多的時(shí)間里,我們的基礎(chǔ)語(yǔ)音識(shí)別引擎已經(jīng)步入正軌,后面只是算法的調(diào)試和數(shù)據(jù)的積累,把平均識(shí)別準(zhǔn)確率繼續(xù)提升,還有語(yǔ)音識(shí)別應(yīng)用領(lǐng)域的拓展。這些都沒(méi)有太多不確定性了。
這時(shí)對(duì)公司來(lái)說(shuō),最大的考驗(yàn)就是如何確定你的商業(yè)模式和產(chǎn)品模式,如何把你的壁壘建造起來(lái)。2014 年之后我們就想的比較清楚了,那就是我們堅(jiān)定的做「云端芯」這種產(chǎn)品戰(zhàn)略,所以在 2014 年我們?cè)?B 輪融資中引入了高通作為戰(zhàn)略投資方,也給我們帶來(lái)了很多推動(dòng)。
具體到「云端芯」,我們的服務(wù)是有「云端芯」三種,1)我們的技術(shù)有芯片級(jí)技術(shù),比如說(shuō)冷喚醒和打斷等;2)到一個(gè)終端軟件的交互層面,比如開(kāi)車(chē)時(shí)萬(wàn)一網(wǎng)絡(luò)不好,我們還有純離線(xiàn)的方案;3)還有一些復(fù)雜的請(qǐng)求是走云端。所以,我們給客戶(hù)提供的解決方案都是芯端云,并不是只賣(mài)一個(gè)芯片或者云端 SDK 之類(lèi),我們是把這個(gè)產(chǎn)品體系打通的。
機(jī)器之心:在確定了「云端芯」的產(chǎn)品戰(zhàn)略后,首先選擇了哪幾個(gè)重點(diǎn)應(yīng)用方向?
黃偉:確定了云端芯戰(zhàn)略后,就基本確定了幾個(gè)應(yīng)用方向,云知聲要做一個(gè)IoT領(lǐng)域的人工智能服務(wù)商,我們結(jié)合市場(chǎng)進(jìn)度確定了幾個(gè)細(xì)分方向,智能家居和車(chē)載、醫(yī)療、教育。2015 年我們開(kāi)始重點(diǎn)對(duì)這些方向進(jìn)行研發(fā)和資源投入。
1)智能家居和車(chē)載
IoT 的交互看起來(lái)很簡(jiǎn)單,但實(shí)際上面臨著很多難以解決的問(wèn)題,這是在手機(jī)端做語(yǔ)音識(shí)別所接觸不到的,因?yàn)槭謾C(jī)經(jīng)過(guò)多年進(jìn)化語(yǔ)音設(shè)備已經(jīng)比較成熟,都是麥克風(fēng)陣列,降噪也做的比較好,而且都是近場(chǎng)通話(huà)。對(duì)于智能家居來(lái)說(shuō),1)家庭中的冰箱空調(diào)等設(shè)備離用戶(hù)比較遠(yuǎn),存在聲波衰減的問(wèn)題。2)客廳臥室是封閉環(huán)境,會(huì)因?yàn)槁暡ǘ啻畏瓷洚a(chǎn)生混響。如何在這種復(fù)雜的情況下,依然能夠有很好的信號(hào)捕捉能力和環(huán)境噪音抑制能力。此外,如果考慮要在產(chǎn)業(yè)中落地,那就一定要考慮功耗和成本等,在資源消耗和你想達(dá)到的表現(xiàn)之間永遠(yuǎn)是不匹配的。
要解決其中的每一個(gè)點(diǎn)都面臨著非常大的挑戰(zhàn),比如亞馬遜 Echo 上多麥克傳感器的供應(yīng)商,那家公司只做這個(gè)就是一家獨(dú)角獸公司了。云知聲付出了巨大努力,花了一年多時(shí)間去重點(diǎn)解決這些問(wèn)題,在 2015 年回顧時(shí)已經(jīng)做得很不錯(cuò)了。
去年上半年,我們和樂(lè)視合作了第三代智能交互電視,用戶(hù)可以用只有一個(gè)按鈕的語(yǔ)音遙控器來(lái)代替?zhèn)鹘y(tǒng)遙控器,我們把 AI 芯片放在了電視機(jī)里,上面還包含了麥克風(fēng)陣列,一般客廳的正常范圍有 3-5 米,你可以把它想象成一個(gè)遠(yuǎn)講的 Siri ,這是國(guó)內(nèi)第一家推出來(lái)的?,F(xiàn)在,除了樂(lè)視,我們的 AI 芯片和格力、美的、華帝、海爾、海信等都進(jìn)行了合作,海信發(fā)布的智能空調(diào)三大標(biāo)準(zhǔn)中的智能語(yǔ)音交互部分用的也是我們的方案。今年家博會(huì)上,格力、美的等六家較大家電廠商有五家?guī)е褂梦覀?AI 芯片的樣機(jī)來(lái)參展。
另外,車(chē)載也是一個(gè)很重要的方向,它是家庭環(huán)境的延展,如果說(shuō)在家居里面我們考慮更多跟硬件相關(guān)的東西,包括穩(wěn)定性和功耗等,那么在車(chē)載場(chǎng)景下我們考慮更多的是交互性,因?yàn)殚_(kāi)車(chē)的場(chǎng)景很特殊,雙手被占用,如何在這種情況下把交互做到流暢就非常重要了。我們?cè)?2014 年底確定做車(chē)載后,在 2015 年初我們開(kāi)始大力投入研發(fā),6 月份正式小批量出貨,截止到去年 12 月份,在整個(gè)中國(guó)的車(chē)載后裝市場(chǎng),比如像行車(chē)記錄儀、導(dǎo)航儀、后視鏡和 HOD 等,我們的設(shè)備超過(guò)了100萬(wàn)臺(tái),在車(chē)載后裝市場(chǎng)上擁有 60% 以上的市場(chǎng)份額。
2)醫(yī)療
首先,醫(yī)療是個(gè)很大的市場(chǎng);其次,中國(guó)很多疑難雜癥沒(méi)有攻克有一部分原因是我們的病例本身沒(méi)有電子化。雖然現(xiàn)在醫(yī)院有 HIS 系統(tǒng),內(nèi)科有電子病歷模板,但外科等多個(gè)科室是沒(méi)有病例電子模板的,依然需要醫(yī)生去打字。那更不用說(shuō)一些需要操作設(shè)備的情況,比如說(shuō)我在做手術(shù),那我的術(shù)中診斷誰(shuí)來(lái)記錄?此外,中國(guó)醫(yī)院還承擔(dān)著科研任務(wù),這需要數(shù)據(jù),但現(xiàn)在很多病例都沒(méi)有數(shù)據(jù)化。我們現(xiàn)在就在和國(guó)內(nèi)頂尖醫(yī)院合作,完成對(duì)醫(yī)療數(shù)據(jù)的感知問(wèn)題。我們做的系統(tǒng)是醫(yī)生和病患對(duì)話(huà)的實(shí)時(shí)轉(zhuǎn)寫(xiě),從醫(yī)患之間的病癥交流到醫(yī)生最后的處方病歷,醫(yī)生可以全部口述,我們系統(tǒng)的完成對(duì)整個(gè)醫(yī)療行為的記錄和存儲(chǔ)。
我們這方面投入了很多研發(fā)資源來(lái)做,醫(yī)療有它的技術(shù)難點(diǎn),語(yǔ)音識(shí)別是分領(lǐng)域的,你的引擎之前在日常對(duì)話(huà)、交通和音視頻搜索里面做得非常好,但你放到醫(yī)學(xué)領(lǐng)域就一團(tuán)糟。因?yàn)獒t(yī)學(xué)里有太多專(zhuān)有名詞,很多名詞非常拗口。我們?cè)谝嫔献隽撕芏喾矫娴膬?yōu)化,到今天為止,我們的準(zhǔn)確率達(dá)到 95% ,因?yàn)槟氵_(dá)不到這個(gè)指標(biāo),轉(zhuǎn)錄之后還要醫(yī)生花很多時(shí)間去糾正的話(huà),醫(yī)生就會(huì)抵觸。此外還有其他方面,比如專(zhuān)門(mén)定了醫(yī)療麥克風(fēng),滿(mǎn)足醫(yī)院場(chǎng)景的專(zhuān)業(yè)需求,在產(chǎn)品設(shè)計(jì)的細(xì)節(jié)方面也需要考慮,比如麥克風(fēng)位置怎么放?如何不干擾它?是移動(dòng)式的還是放在桌子上?
從未來(lái)價(jià)值來(lái)看,這套系統(tǒng)有助于以后做醫(yī)療大數(shù)據(jù)挖掘等其他很多工作。同時(shí)它在當(dāng)前也擁有很大的經(jīng)濟(jì)價(jià)值。去年第四季度,這套系統(tǒng)在協(xié)和醫(yī)院四個(gè)重點(diǎn)科室上線(xiàn)試用了一個(gè)季度,最后協(xié)和醫(yī)院的評(píng)估報(bào)告顯示平均每天每個(gè)醫(yī)生節(jié)約兩個(gè)小時(shí)。目前每個(gè)病人的平均就診時(shí)間是幾分鐘,那兩個(gè)小時(shí)就意味著協(xié)和的醫(yī)生每天能多看幾個(gè)病人。這套系統(tǒng)今年會(huì)在協(xié)和醫(yī)院全院推廣。
3)教育
我們推出了語(yǔ)音評(píng)測(cè)服務(wù)云,針對(duì)國(guó)內(nèi)常見(jiàn)的啞巴英語(yǔ)現(xiàn)象,我們開(kāi)發(fā)了一套口語(yǔ)評(píng)測(cè)引擎,它不僅會(huì)對(duì)你的整體打分,還能指出某句話(huà)中的哪個(gè)單詞發(fā)音不準(zhǔn),并告訴你準(zhǔn)確發(fā)音。這套系統(tǒng)可以作為學(xué)校和英語(yǔ)教育培訓(xùn)中的一個(gè)很重要的輔助工具。我們的教育云上線(xiàn)半年,每天的調(diào)用量超過(guò)六千萬(wàn)次,按照每個(gè)學(xué)生每天 10-20 次的使用頻率,那幾本上每天的活躍用戶(hù)是幾百萬(wàn)以上。目前,在教育領(lǐng)域,拓維、全通、滬江、好未來(lái)、一起作業(yè)等都是我們客戶(hù)。
總之,我們確定了「AI 服務(wù)」和「AI 芯」,將人工智能與硬件和芯片相結(jié)合,目前我們的云服務(wù)覆蓋全國(guó) 470 個(gè)城市和 1.8 億用戶(hù),超過(guò)九千萬(wàn)終端,每天我們的平臺(tái)調(diào)用量是以?xún)|為單位,那這個(gè)是真正的大數(shù)據(jù)。其實(shí)回過(guò)頭來(lái)看的話(huà),這就是為什么說(shuō)當(dāng)年我們做平臺(tái)的一個(gè)很重要原因。數(shù)據(jù)是未來(lái),那今天我們通過(guò)技術(shù)和產(chǎn)品結(jié)合,讓我們獲得收益支持公司走得更遠(yuǎn)更快,這個(gè)基本上就是云知聲的發(fā)展軌跡和路徑。
三、對(duì)語(yǔ)音識(shí)別和人工智能的看法
真正的人工智能需要進(jìn)化,通過(guò)代理(Agent)的方式從環(huán)境中獲取數(shù)據(jù),然后再用這些數(shù)據(jù)來(lái)幫助系統(tǒng)來(lái)提高自身。
機(jī)器之心:如你上面所說(shuō),語(yǔ)音識(shí)別和應(yīng)用場(chǎng)景密切相關(guān)。那你覺(jué)得,除了車(chē)載和智能家居這類(lèi)非常明確的語(yǔ)音交互需求,還是說(shuō)它和其他交互方式是相互補(bǔ)充?
黃偉:是相互補(bǔ)充的。在手機(jī)端,攝像頭是以拍照為主,很少用它去做交互;麥克風(fēng)主要是以打電話(huà)和發(fā)語(yǔ)音信息為主。但當(dāng)我們逐步進(jìn)入 IoT 時(shí)代,一切設(shè)備都是聯(lián)網(wǎng)和需要提供智能服務(wù)的,但有些設(shè)備需要在沒(méi)有屏幕的情況下進(jìn)行交互,攝像頭成本比較高,而且還存在一個(gè)最大的擔(dān)憂(yōu)是,你不知道它(攝像頭)是不是在看,也會(huì)涉及隱私問(wèn)題。所以,用攝像頭進(jìn)行交互的設(shè)備可能不會(huì)太多,除非它有明確需求。但基于麥克風(fēng)的語(yǔ)音交互是一種主動(dòng)形式。所以在 IoT 設(shè)備里面麥克風(fēng)可能會(huì)是一種主要的交互方式,但它可能不是唯一的,也許它會(huì)跟圖像、手勢(shì)、體感及其他東西組合在一起。而且人工智能一定是一個(gè)綜合智能,就是像我們?nèi)祟?lèi)自身的大腦和智能。
機(jī)器之心:如果具體到手機(jī)端這個(gè)場(chǎng)景,目前語(yǔ)音識(shí)別在手機(jī)端的應(yīng)用主要是語(yǔ)音助手,但我們發(fā)現(xiàn)它們的作用非常有限,如果接下來(lái)在手機(jī)端出來(lái)一個(gè)消費(fèi)級(jí)的非常好用的產(chǎn)品,那它有可能是一個(gè)怎樣的產(chǎn)品?或者說(shuō)手機(jī)端根本就不會(huì)出現(xiàn)這樣的產(chǎn)品?
黃偉:比如前面提到的 Siri ,它一直不溫不火的原因有兩點(diǎn),一個(gè)是目前的技術(shù)其實(shí)還沒(méi)達(dá)到那種很完善的狀態(tài)。第二點(diǎn)是它沒(méi)有跟服務(wù)打通。最近又看到另外一種現(xiàn)象,大家很關(guān)注 Echo 。第一是它擺脫手機(jī)了,它是家居里的一個(gè)音箱或者其他聯(lián)網(wǎng)設(shè)備,而且這個(gè)設(shè)備是可以遠(yuǎn)距離交互的,它和亞馬遜電商是打通的,這就是把語(yǔ)音交互和服務(wù)直接打通了。那這樣在家里你可以進(jìn)行信息查詢(xún),也可以下單買(mǎi)東西,這就跟以前完全不一樣了,所以我相信以 Echo 為代表的這種模式是未來(lái)一種非常重要的方式,它有可能會(huì)獲得成功。
我覺(jué)得即便是 IoT 到來(lái),手機(jī)也不會(huì)消失。至少 3-5 年內(nèi),我們每個(gè)人還會(huì)用手機(jī),那么語(yǔ)音助手就會(huì)有存在的必要性,因?yàn)槲耶吘挂惨ㄟ^(guò)手機(jī)去做交互,所以這個(gè)方向是要一直往前發(fā)展。蘋(píng)果給了我們很好的啟示,并且他們一直沒(méi)有放棄 Siri 。首先,在軟件技術(shù)方面一直在升級(jí),同時(shí)把很多關(guān)于 Siri 的技術(shù)往芯片里做,比如 iPhone 6s 就把語(yǔ)音喚醒和身份識(shí)別做到了芯片里,無(wú)需接上電源就可以通過(guò)「Hey Siri」來(lái)喚醒手機(jī)。第二點(diǎn)是它往后會(huì)把服務(wù)打通,技術(shù)不僅讓我跟設(shè)備去交互,而且還需要讓我們得到想要的服務(wù),比如說(shuō)能夠通過(guò) Siri 呼叫 Uber 、訂票、訂餐。其實(shí) Siri 這種交互模式與之前的搜索引擎那種方式完全不同,它要打通的鏈條更多,可能會(huì)需要一些時(shí)間。
機(jī)器之心:你認(rèn)為接下來(lái)人工智能應(yīng)該如何發(fā)展?
黃偉:第一,我們一直強(qiáng)調(diào)感知,感知是基礎(chǔ),就比如人類(lèi)的進(jìn)化,我們出生時(shí)攜帶的遺傳基因可以理解成人類(lèi)幾百萬(wàn)年進(jìn)化史留下的數(shù)據(jù)。如果說(shuō)你沒(méi)有感知,沒(méi)有大量數(shù)據(jù)來(lái)做一個(gè)基石的話(huà),你不可能有一個(gè)非常好的初始系統(tǒng)。第二,人工智能系統(tǒng)是需要進(jìn)化的。比如你買(mǎi)個(gè)設(shè)備回來(lái),第一天它只能做這個(gè),一年之后它還是只能做這個(gè),十年之后依然如此。如果這是個(gè)兒童陪伴機(jī)器人,那第一年小孩跟它玩,第二年就不跟它玩了,因?yàn)槲以缇蜁?huì)了,這就說(shuō)明它沒(méi)有進(jìn)化。
所以真正的人工智能系統(tǒng)應(yīng)該是個(gè)進(jìn)化系統(tǒng)。那進(jìn)化怎么來(lái)的?進(jìn)化就是通過(guò)代理(Agent)的方式從環(huán)境中獲取數(shù)據(jù),然后再用這些數(shù)據(jù)來(lái)幫助系統(tǒng)提高自身。只有這樣的話(huà),人工智能才是真正的人工智能。當(dāng)然這就會(huì)帶來(lái)另外一個(gè)問(wèn)題,包括像霍金等人提出的人工智能威脅論,但我覺(jué)得這就是發(fā)展路徑的問(wèn)題了,是往好的地方進(jìn)化還是往壞的地方進(jìn)化?但如果說(shuō)要是不進(jìn)化,那就不是人工智能。首先這是「是與非」的問(wèn)題,其次才是你往左走還是往右走的問(wèn)題。其實(shí)在后面我們可以進(jìn)行方向的控制,如果數(shù)據(jù)是一種教育資源的話(huà),我們可以給它提供一些好的教育資源去引導(dǎo)它往好的方向進(jìn)化。
-
芯片
+關(guān)注
關(guān)注
459文章
52416瀏覽量
439505 -
語(yǔ)音識(shí)別
+關(guān)注
關(guān)注
39文章
1779瀏覽量
114142 -
人工智能
+關(guān)注
關(guān)注
1806文章
48960瀏覽量
248592
發(fā)布評(píng)論請(qǐng)先 登錄
評(píng)論