一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線(xiàn)課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

微軟 | 對(duì)話(huà)黃學(xué)東:語(yǔ)音和語(yǔ)言技術(shù)是真正鑲在人工智能皇冠上的明珠

DPVg_AI_era ? 來(lái)源:YXQ ? 2019-05-21 15:28 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

微軟全球技術(shù)院士、首席語(yǔ)音科學(xué)家黃學(xué)東近日做客微軟播客節(jié)目,聊了聊在語(yǔ)音和語(yǔ)言技術(shù)取得的幾個(gè)里程碑式的突破,解釋了掌握語(yǔ)音識(shí)別、翻譯和對(duì)話(huà)將如何讓機(jī)器從 “感知 AI” 進(jìn)化到 “認(rèn)知 AI”,更接近真正的人類(lèi)智能。

“語(yǔ)音和語(yǔ)言技術(shù)是真正鑲在人工智能皇冠上的明珠?!?/span>

已經(jīng)在語(yǔ)音和語(yǔ)言技術(shù)領(lǐng)域耕耘了30年,取得多個(gè)突破性進(jìn)展的微軟全球技術(shù)院士 (Technical Fellow)、首席語(yǔ)音科學(xué)家黃學(xué)東先生如此說(shuō)道。

近日,黃學(xué)東做客微軟播客節(jié)目,聊了聊他和團(tuán)隊(duì)在語(yǔ)音和語(yǔ)言技術(shù)取得的幾個(gè)里程碑式的突破。

黃學(xué)東解釋了掌握語(yǔ)音識(shí)別、翻譯和對(duì)話(huà)將如何讓機(jī)器從 “感知 AI” 進(jìn)化到 “認(rèn)知 AI”,更接近真正的人類(lèi)智能。

此外,黃學(xué)東也談到他如何走上語(yǔ)音研究之路,以及他在清華大學(xué)和在微軟的人生歷程。

采訪音頻語(yǔ)音和語(yǔ)言將推動(dòng)人工智能的進(jìn)化

主持人:黃學(xué)東先生,歡迎來(lái)到微軟播客。

黃學(xué)東:謝謝。

主持人:您是微軟語(yǔ)音和語(yǔ)言組的 Technical Fellow,負(fù)責(zé)領(lǐng)導(dǎo)微軟的語(yǔ)音工作。我們將在稍后深入討論這些,但首先,作為公司的首席語(yǔ)音科學(xué)家,請(qǐng)概括地告訴我們你的工作內(nèi)容是什么,以及為什么要做這些。你早上起來(lái)的動(dòng)力是什么?

黃學(xué)東:我們所做的就是確保我們擁有最好的語(yǔ)音和語(yǔ)言技術(shù),可以用于各種各樣的場(chǎng)景。我們有一整個(gè)團(tuán)隊(duì)在做這件事情,因?yàn)閷?duì)話(huà)不僅是人們最自然的交流方式,而且這是 AI 最大的挑戰(zhàn)。我們嘗試真正地推動(dòng)這個(gè)領(lǐng)域的突破,在我們的云服務(wù) Azure Services 上提供出色的服務(wù),并確保我們能夠讓微軟內(nèi)部和微軟之外的客戶(hù)滿(mǎn)意。如果你想厘清整個(gè)事情,主要有三個(gè)方面。

首先,我們有能力去真正提高語(yǔ)音識(shí)別的準(zhǔn)確性,去驅(qū)動(dòng)語(yǔ)音合成的自然性,以及確保機(jī)器翻譯的準(zhǔn)確性,例如從英語(yǔ)翻譯成漢語(yǔ)或法語(yǔ)或德語(yǔ)。因此,這背后有很多科學(xué),要確保準(zhǔn)確性,自然度,延遲時(shí)間,這些技術(shù)都是世界級(jí)的。這是一方面。

第二方面是,我們不僅提供技術(shù),我們還通過(guò) Azure 提供服務(wù)。從 Office 到 Windows, Cortana,它們都依賴(lài)于相同的云服務(wù)。我們也有邊緣設(shè)備,比如我們的語(yǔ)音設(shè)備 SDK。我們想要確保在邊緣和云端的語(yǔ)音技術(shù)都是以現(xiàn)代的方式提供的,即云平臺(tái)和嵌入式平臺(tái)。這是第二方面:平臺(tái)是現(xiàn)代化的。

第三個(gè)方面,是向客戶(hù)表達(dá)我們的愛(ài)。因?yàn)槲覀冊(cè)谑澜绺鞯囟加袕V泛的客戶(hù),我們想讓消費(fèi)者滿(mǎn)意,并確保使用我們的語(yǔ)音翻譯的客戶(hù)體驗(yàn)是一流的。

主持人:是的。

黃學(xué)東:這就是我實(shí)際上在做的三件關(guān)鍵事情:提升 AI 能力,使我們?cè)谠贫撕瓦吘壴O(shè)備的平臺(tái)實(shí)現(xiàn)現(xiàn)代化,以及愛(ài)我們的客戶(hù)。

主持人:嗯,所以你們有很多團(tuán)隊(duì)在這些小組中工作,來(lái)解決這些核心問(wèn)題。

黃學(xué)東:是的。我們?cè)谑澜绺鞯囟加袌F(tuán)隊(duì)。并且,這些團(tuán)隊(duì)的多樣性是很驚人的,因?yàn)槲覀冋谂鉀Q的是語(yǔ)言障礙。因此,我們?cè)谥袊?guó)有團(tuán)隊(duì),在德國(guó)、以色列、印度和美國(guó)都有團(tuán)隊(duì)。我們的工作是全球范圍的,嘗試努力去解決這些語(yǔ)言挑戰(zhàn)。

主持人:首先,我想引用你的話(huà)為我們今天的談話(huà)做鋪墊。你說(shuō):“語(yǔ)音和語(yǔ)言是人工智能皇冠上的明珠。” 請(qǐng)為我們解釋一下吧。

黃學(xué)東:嗯。我們可以從人類(lèi)進(jìn)化的范疇來(lái)思考。在某個(gè)時(shí)期,語(yǔ)言誕生了。這加速了人類(lèi)的進(jìn)化。你可以想想這個(gè)星球上所有的動(dòng)物,你知道的,有些動(dòng)物跑得比人類(lèi)快,有些動(dòng)物視力比人類(lèi)好……

主持人:有些動(dòng)物的牙齒也更鋒利。

黃學(xué)東:…… 尤其是在夜里。

主持人:動(dòng)物更強(qiáng)大。

黃學(xué)東:是的。事實(shí)上,動(dòng)物的聽(tīng)覺(jué)和嗅覺(jué)都比人類(lèi)更好,但只有我們?nèi)祟?lèi)才擁有語(yǔ)言。有了語(yǔ)言,我們能夠更好地組織,能夠用科幻的術(shù)語(yǔ)去描述,能夠自我組織,能夠編寫(xiě)憲法。所以,是語(yǔ)音和語(yǔ)言使我們有別于其他動(dòng)物。對(duì)人工智能來(lái)說(shuō),語(yǔ)音和語(yǔ)言將推動(dòng)人工智能的進(jìn)化,就像它推動(dòng)了人類(lèi)的進(jìn)化一樣。這就是為什么說(shuō)它是鑲在人工智能皇冠上的明珠。

主持人:原來(lái)如此。

黃學(xué)東:而且它還很堅(jiān)硬,難以破壞。

主持人:是的。關(guān)于這個(gè)話(huà)題有一個(gè)哲學(xué)討論,但它引出了一些有趣的問(wèn)題。假如你在機(jī)器語(yǔ)言方面取得了很大的成功,那么,這些機(jī)器是什么?

黃學(xué)東:讓我們發(fā)揮一點(diǎn)想象力……

比如說(shuō),我們假設(shè)計(jì)算機(jī)可以理解 300 種語(yǔ)言,能夠流利地交流和對(duì)話(huà)。但我還從沒(méi)遇到過(guò)一個(gè)會(huì)說(shuō) 300 種語(yǔ)言的人。機(jī)器不僅能夠用 300 種語(yǔ)言流暢地交流和對(duì)話(huà),還能夠領(lǐng)會(huì)、理解、學(xué)習(xí)和推理,真正完成所有學(xué)科的博士課程。這種知識(shí)的獲取、推理,是任何人的個(gè)人能力所不能及的。當(dāng)那一刻到來(lái)的時(shí)候,你可以想象 AI 將會(huì)有多么聰明。

主持人:這是你想象出來(lái)的嗎?

黃學(xué)東:是的。我認(rèn)為這個(gè)世界會(huì)變得更美好。就在幾周前,我去了日本,我手機(jī)上安裝了微軟翻譯軟件。我能真正地與不會(huì)說(shuō)中文或英文的日本人交流了。這已經(jīng)實(shí)現(xiàn)了。微軟翻譯可以說(shuō)我不會(huì)講的語(yǔ)言,幫助我在日本時(shí)更有效率。

主持人:我完全同意。但想到這個(gè)機(jī)器,我就有點(diǎn)害怕。

黃學(xué)東:但是你要知道,智能有兩個(gè)層次。第一個(gè)層次是真正的感知智能 (perceptive intelligence)。就是看、聽(tīng)、聞的能力。更高層次的是認(rèn)知智能(cognitive intelligence)。就是推理、學(xué)習(xí)和獲得知識(shí)的能力。我們今天所取得的 AI 的突破,大多是在感知層面的,如語(yǔ)音識(shí)別、語(yǔ)音合成、計(jì)算機(jī)視覺(jué)等。但是高層次的推理和知識(shí)獲取,即認(rèn)知能力,AI 離人類(lèi)的水平還很遠(yuǎn)。

主持人:是的。

黃學(xué)東:我對(duì)翻譯感到興奮,因?yàn)樗鼘?shí)際上是介于感知智能和認(rèn)知智能之間的。我們能夠真正地在感知智能上取得成功,并擴(kuò)展到認(rèn)知智能。這是一個(gè)相當(dāng)漫長(zhǎng)的過(guò)程。

主持人:是的。

黃學(xué)東:我不知道我們什么時(shí)候才能達(dá)到那個(gè)里程碑。但那一天會(huì)到來(lái)。這只是時(shí)間問(wèn)題??赡苄枰?50 年的時(shí)間,但我認(rèn)為這是會(huì)發(fā)生的。

微軟語(yǔ)音技術(shù)研究之路

主持人:我們會(huì)在下回的播客中討論這個(gè)里程碑,因?yàn)榻裉煲呀?jīng)有好幾個(gè)里程碑要討論。但首先,我想回顧一下歷史。你已經(jīng)在微軟研究院工作了很長(zhǎng)時(shí)間了,在 Rick Rashid 成立微軟研究院的時(shí)候,語(yǔ)音組是第一批研究組織。根據(jù) MSR 的傳說(shuō),這個(gè)組織的目標(biāo)是 “讓語(yǔ)音成為主流”。請(qǐng)給我們簡(jiǎn)單介紹一下微軟研究院的語(yǔ)音歷史。這項(xiàng)研究是如何從早期的 “不主流”、“敢于冒險(xiǎn),但離成功還很遠(yuǎn)” 發(fā)展到今天幾乎應(yīng)用在微軟所有產(chǎn)品中?

黃學(xué)東:在加入微軟研究院之前,我在匹茲堡的 CMU 任教。Rick Rashid 當(dāng)時(shí)是 CMU 的教授。我當(dāng)時(shí)是初級(jí)教員。所以,我當(dāng)時(shí)主要是在 CMU 做關(guān)于語(yǔ)音的研究。微軟伸出了橄欖枝,他們想成立一個(gè)語(yǔ)音組。所以,實(shí)際上,我在 1993 年元旦假期后的第一天就搬了家,從匹茲堡飛往西雅圖,開(kāi)始了在微軟的旅程,并從未改變。這就是微軟語(yǔ)音的開(kāi)端。我們是一個(gè)研究團(tuán)隊(duì),致力于為開(kāi)發(fā)者帶來(lái)語(yǔ)音技術(shù)。

主持人:所以,不是沒(méi)有實(shí)用價(jià)值的研究……

黃學(xué)東:不是的。因此,我們從 CMU 獲得了技術(shù)許可。我們就是這樣起步的。我們非常感謝 CMU 在這一領(lǐng)域的開(kāi)創(chuàng)性研究。雖然是研究團(tuán)隊(duì),但我們發(fā)布了第一個(gè)語(yǔ)音 API,叫 SAPI,用在 Windows 95 上。作為一個(gè)研究團(tuán)隊(duì),我們對(duì)此感到非常自豪,因?yàn)橥ǔQ芯繄F(tuán)隊(duì)只是做基礎(chǔ)研究。我們不僅做了基礎(chǔ)研究,還繼續(xù)挑戰(zhàn)極限,繼續(xù)提高識(shí)別精度,我們還與 Windows 合作,把這項(xiàng)技術(shù)帶給了 Windows 開(kāi)發(fā)者。SAPI 是業(yè)界第一個(gè)基于 Windows 的語(yǔ)音 API。

主持人:哇。

黃學(xué)東:那真是一段很長(zhǎng)的經(jīng)歷。后來(lái),我最終離開(kāi)了研究部門(mén),加入了產(chǎn)品部門(mén)。跟我一起轉(zhuǎn)入產(chǎn)品部門(mén)的是一個(gè)優(yōu)秀的微軟語(yǔ)音研究組。這是我在微軟 27 年的經(jīng)歷。我在 2004 年之后就不再做語(yǔ)音了,在我們發(fā)布了語(yǔ)音服務(wù)器之后,我開(kāi)始做了很多不同的事情,包括孵化研究。

在薩蒂亞?納德拉 (Satya Nadella) 負(fù)責(zé) Bing 的時(shí)候,我還做過(guò) Bing 的架構(gòu)師。然后,在 Harry 負(fù)責(zé)研究和技術(shù)團(tuán)隊(duì)時(shí),我?guī)椭趸艘幌盗腥斯ぶ悄茼?xiàng)目,包括 GPU 集群、Project Philly、深度學(xué)習(xí)工具包 CNTK 等基礎(chǔ)項(xiàng)目。當(dāng)然,還有語(yǔ)音研究,還包括其他高端解決方案。

大約三年前,我有幸回來(lái)負(fù)責(zé)語(yǔ)音和語(yǔ)言組。我們基本上整合了所有在語(yǔ)音和翻譯方面的資源,這就是我的經(jīng)歷。精彩的 27 年。

主持人:語(yǔ)音和語(yǔ)言組在屬于哪個(gè)部門(mén)?

黃學(xué)東:正如我說(shuō)的,我們?cè)谘芯坎块T(mén)和產(chǎn)品部門(mén)之間來(lái)回了很多次?,F(xiàn)在,我們屬于云和人工智能部門(mén)。這是一個(gè)產(chǎn)品團(tuán)隊(duì)。我們是云服務(wù)的一部分,向全公司和全行業(yè)提供語(yǔ)音和翻譯服務(wù)。我們也有語(yǔ)音和對(duì)話(huà)研究。他們更像一個(gè)研究團(tuán)隊(duì)。

主持人:是的。

黃學(xué)東:那個(gè)組里全是研究人員。正如 Rick 說(shuō)的,技術(shù)成果轉(zhuǎn)化是一項(xiàng)需要各部門(mén)配合的事情。我們不僅是各部門(mén)緊密配合,我們已經(jīng)成了一個(gè)整體。這是一個(gè)非常令人興奮的團(tuán)隊(duì),有一群非常有才華、非常有創(chuàng)新精神的人。

主持人:所以,在研究模式上還是很有前瞻性的……

黃學(xué)東:不僅是有前瞻性,而且是有充分依據(jù)的。我們必須腳踏實(shí)地提供服務(wù),也要站到未來(lái)的高度,去定義人們需要的和人們想要的解決方案是什么,即使現(xiàn)在這個(gè)解決方案尚不存在。

三個(gè)里程碑:語(yǔ)音識(shí)別、機(jī)器翻譯和對(duì)話(huà)問(wèn)答

主持人:讓我們來(lái)談?wù)勀銋⑴c的一些研究里程碑。它們真的很有趣。你參與了三個(gè)領(lǐng)域:對(duì)話(huà)式語(yǔ)音識(shí)別、機(jī)器翻譯和對(duì)話(huà)問(wèn)答。讓我們從語(yǔ)音識(shí)別開(kāi)始。2016 年,你帶領(lǐng)的團(tuán)隊(duì)在轉(zhuǎn)寫(xiě)對(duì)話(huà)語(yǔ)音方面達(dá)到了人類(lèi)水平的歷史記錄。請(qǐng)說(shuō)說(shuō)這是什么怎么一回事,是怎樣做到的?

黃學(xué)東:在 2016 年,我們?cè)趶V泛使用的 Switchboard Conversational Transcription 任務(wù)上達(dá)到了媲美人類(lèi)的水平。這項(xiàng)任務(wù)在研究界和工業(yè)界可能已經(jīng)有十多年了。2017 年,我們重新刷新了這個(gè)里程碑,不是和一個(gè)人比較,而是和一群人比較,轉(zhuǎn)寫(xiě)同樣的任務(wù)。所以,我認(rèn)為 2017 年是一個(gè)歷史性的時(shí)刻。轉(zhuǎn)寫(xiě)相同任務(wù),微軟語(yǔ)音堆棧的表現(xiàn)優(yōu)于所有四個(gè)團(tuán)隊(duì)的總和。最初我向我們的研究小組提出挑戰(zhàn)時(shí),沒(méi)有人認(rèn)為能做到。但令人驚訝的是,當(dāng)我們有了信念,有了資源,有了專(zhuān)注的焦點(diǎn),奇跡真的發(fā)生了,只花了不到兩年的時(shí)間。所以,對(duì)于團(tuán)隊(duì),對(duì)于科學(xué),對(duì)于技術(shù)來(lái)說(shuō),那確實(shí)是一個(gè)美妙的時(shí)刻。那是我個(gè)人職業(yè)生涯中實(shí)現(xiàn)的第一個(gè)達(dá)到與媲美人類(lèi)水平的里程碑。

主持人:所以,我想深入探討一下這個(gè)問(wèn)題,因?yàn)槟闼f(shuō)的這些非常有趣:在兩年的時(shí)間里,沒(méi)有人認(rèn)為這件事能夠做到,然后你們做到了。請(qǐng)告訴我們更多關(guān)于你們是如何實(shí)現(xiàn)這一點(diǎn)的技術(shù)層面的事情。

黃學(xué)東:如果你回顧一下語(yǔ)音研究的歷史,你就會(huì)發(fā)現(xiàn),很多后人反復(fù)使用的突破性成果都是語(yǔ)音團(tuán)隊(duì)開(kāi)創(chuàng)的。讓我們以翻譯為例。在 70 年代早期,即使是語(yǔ)音識(shí)別,使用的也是更傳統(tǒng)的人工智能,比如基于規(guī)則的方法,專(zhuān)家系統(tǒng)。IBM Watson 的研究團(tuán)隊(duì)率先使用隱馬爾可夫模型,使用統(tǒng)計(jì)語(yǔ)言模型,進(jìn)行統(tǒng)計(jì)語(yǔ)音識(shí)別。事實(shí)證明他們突破了極限,極大地推進(jìn)了這個(gè)領(lǐng)域的發(fā)展。因此,那是語(yǔ)音領(lǐng)域的一個(gè)高光時(shí)刻。

同樣是這批 IBM 語(yǔ)音的研究人員,他們借鑒了語(yǔ)音識(shí)別的方法,并將其應(yīng)用到翻譯中。他們改寫(xiě)了機(jī)器翻譯史,大大提高了翻譯的質(zhì)量。在隱馬爾可夫模型之后,深度學(xué)習(xí)開(kāi)始被用于語(yǔ)音識(shí)別,即神經(jīng)語(yǔ)音識(shí)別。再一次,翻譯借鑒過(guò)來(lái),出現(xiàn)了神經(jīng)機(jī)器翻譯,而且還很先進(jìn)。所以,你可以看到,語(yǔ)音技術(shù)總是被其他領(lǐng)域借鑒的。實(shí)際上,語(yǔ)音領(lǐng)域的研究者一直在做系統(tǒng)的基準(zhǔn)測(cè)試,這是一種非常嚴(yán)格的評(píng)估,改變了科學(xué)和工程的評(píng)估方式。

主持人:是的。

黃學(xué)東:所以,語(yǔ)音技術(shù)社區(qū)有很多經(jīng)驗(yàn)可以借鑒,這些經(jīng)驗(yàn)本可以在語(yǔ)音之外得到廣泛的應(yīng)用。所以,我們借鑒了這些經(jīng)驗(yàn),去處理更艱巨的任務(wù)。這樣看來(lái),我們同一個(gè)團(tuán)隊(duì)實(shí)現(xiàn)了這些不同任務(wù)的歷史性里程碑也就不足為奇了。

主持人:那么,讓我們來(lái)談?wù)劻硪粋€(gè)里程碑:在 WMT-2017 的中英新聞機(jī)器翻譯任務(wù)中,實(shí)現(xiàn)了媲美人類(lèi)的水平。這是如何做到的?讓我們回到我們最初的問(wèn)題 —— 你是否認(rèn)為現(xiàn)在機(jī)器已經(jīng)可以媲美傳統(tǒng)的人工翻譯服務(wù)?以及為什么這項(xiàng)工作是一個(gè)重要的突破?

黃學(xué)東:所以,我們團(tuán)隊(duì)實(shí)現(xiàn)的第二個(gè)里程碑式突破同樣令人興奮。正如我剛才說(shuō)的,轉(zhuǎn)寫(xiě) Switchboard 對(duì)話(huà)是低水平的任務(wù),處于感知 AI 層面。翻譯是介于感知 AI 和認(rèn)知 AI 之間的一項(xiàng)任務(wù)。當(dāng)然,翻譯是一項(xiàng)更艱巨的任務(wù),沒(méi)有人相信我們能做到這一點(diǎn)。所以,我們?cè)O(shè)定了一個(gè)目標(biāo):在五年內(nèi),看看我們能否在句子層面實(shí)現(xiàn)媲美人類(lèi)的翻譯水平。我們?nèi)祟?lèi)翻譯時(shí),觀察的是整個(gè)段落,我們會(huì)有更廣的背景知識(shí),所以我們能做得更好。所以,我們限制在廣泛使用的 WMT 數(shù)據(jù)集,這是一個(gè)逐句翻譯新聞句子的任務(wù)……

黃學(xué)東:這是一個(gè)開(kāi)放的研究,有公開(kāi)的基準(zhǔn)。但即使有這些限制,我們也認(rèn)為可能要花五年的時(shí)間。因此,我們將語(yǔ)音識(shí)別研究中獲得的成功作為基礎(chǔ)。但這一次,我們實(shí)際上走得更遠(yuǎn)。我們與微軟亞洲研究院的同事合作,因?yàn)檫@是一個(gè)中文到英文翻譯的任務(wù)。令人驚訝的是,這群人讓所有人都大吃一驚。我們?cè)诓坏揭荒甑臅r(shí)間里完成了這個(gè)任務(wù),新聞句子中英翻譯達(dá)到了人類(lèi)的對(duì)等水平,同一任務(wù)上機(jī)器的翻譯比專(zhuān)業(yè)人員更好,這是一個(gè)歷史性的突破。我為這個(gè)團(tuán)隊(duì)感到驕傲,也為這次合作感到非常自豪。

主持人:另外一個(gè)非常有趣的領(lǐng)域是 COQA,對(duì)話(huà)問(wèn)答。請(qǐng)給我們講講這項(xiàng)語(yǔ)音識(shí)別技術(shù)中最人性化,也許也是最困難的工作。

黃學(xué)東:這項(xiàng)任務(wù)是由斯坦福大學(xué)的研究人員首創(chuàng)的。它離認(rèn)知 AI 更近了一步。這實(shí)際上是機(jī)器閱讀理解任務(wù)。就是你讀了一段話(huà)。然后我們用一系列相關(guān)的問(wèn)題來(lái)挑戰(zhàn)正確的回答。例如,假如你讀到關(guān)于比爾?蓋茨的一段話(huà),第一個(gè)問(wèn)題可能是,“誰(shuí)是微軟的創(chuàng)始人?” 第二個(gè)問(wèn)題可能與第一個(gè)問(wèn)題有關(guān),“這個(gè)人開(kāi)始創(chuàng)建微軟時(shí)多大?” 或者,“這個(gè)人退休時(shí)多大?” 所以,上下文關(guān)聯(lián)比簡(jiǎn)單的機(jī)器閱讀理解要難,因?yàn)楸仨氃诮o定的上下文背景下回答一系列相關(guān)的問(wèn)題。

所以,對(duì)于這一最新的突破,我必須要?dú)w功于我們 base 在北京的研究實(shí)驗(yàn)室的同事們,我們一直在利用共享的資源和基礎(chǔ)設(shè)施共同開(kāi)展這項(xiàng)工作。結(jié)果很驚人。在這項(xiàng)對(duì)話(huà)問(wèn)答挑戰(zhàn)中,我們不管是準(zhǔn)確性還是速度都讓人印象深刻。再一次,我們?cè)谶@個(gè)廣泛關(guān)注的 AI 任務(wù)上實(shí)現(xiàn)了媲美人類(lèi)的水平。沒(méi)有人相信可以在如此短的時(shí)間內(nèi)實(shí)現(xiàn)這種對(duì)話(huà)問(wèn)答的人類(lèi)同等水平,我們最初認(rèn)為可能需要兩年的時(shí)間。我們?cè)僖淮未蚱屏藲v史記錄。

主持人:嗯,我們已經(jīng)討論了一些技術(shù)方面的問(wèn)題。那么,在最后一個(gè)問(wèn)題上,你們是否有其他方法或技術(shù)能解決這個(gè)問(wèn)答任務(wù)呢?

黃學(xué)東:微軟在 AI 方面已經(jīng)積累了 30 年的研究和經(jīng)驗(yàn)。北京的自然語(yǔ)言小組,在過(guò)去的二十年里一直在做這個(gè),他們匯聚了很多人才,積累了很多經(jīng)驗(yàn)。我們基本上是使用深度學(xué)習(xí)和遷移學(xué)習(xí)。同時(shí),我們的成功也構(gòu)建在整個(gè)社區(qū)的基礎(chǔ)上。

比如,谷歌開(kāi)發(fā)了一項(xiàng)名為 BERT 的技術(shù)。我們?cè)?BERT 的基礎(chǔ)上取得了成功。

主持人:嗯嗯。

黃學(xué)東:所以,這其實(shí)是整個(gè)研究社區(qū)的想法。我剛剛談到微軟亞洲研究院和微軟美國(guó)團(tuán)隊(duì)之間的合作。事實(shí)上,這是整個(gè)行業(yè)合作的一個(gè)很好的例子。

從清華到愛(ài)丁堡:讓人類(lèi)真正與機(jī)器交流的夢(mèng)想從未消失

主持人:您在這期節(jié)目中向我們描述的事情非常令人興奮 —— 如果你成功了,我們必須解決可能出現(xiàn)的問(wèn)題。

黃學(xué)東:是的。

主持人:你想讓電腦能夠聽(tīng)、說(shuō)、翻譯、回答問(wèn)題 —— 擁有與人交流交流的能力。有沒(méi)有什么讓你擔(dān)心的?

黃學(xué)東:是的,當(dāng)然。我擔(dān)心的是,總有一天,人類(lèi)會(huì)過(guò)于依賴(lài) AI。AI 永遠(yuǎn)不可能完美。AI 總是會(huì)帶有偏見(jiàn)。所以,我擔(dān)心這種不易覺(jué)察的影響。

主持人:是的。

黃學(xué)東:這是一個(gè)我們必須意識(shí)到并且必須解決的廣泛的社會(huì)問(wèn)題。因?yàn)榫拖袢魏稳艘粯樱绻阌幸粋€(gè)你所依賴(lài)的助手,你會(huì)知道那個(gè)助手可以影響你,改變你的計(jì)劃,改變你的觀點(diǎn)。總有一天,AI 也會(huì)扮演同樣的角色。AI 會(huì)有偏見(jiàn)。如何處理這個(gè)問(wèn)題是我最關(guān)心的。

主持人:是的。

黃學(xué)東:如果一切順利的話(huà)。這確實(shí)是我們必須處理的首要問(wèn)題。不過(guò)目前我們不知道如何處理,因?yàn)槲覀冞€沒(méi)有達(dá)到那個(gè)階段。

主持人:那么,你在開(kāi)發(fā)這種能說(shuō)話(huà)、傾聽(tīng)和交流的工具時(shí),有沒(méi)有一種 “設(shè)計(jì)思維” 呢?

黃學(xué)東:我只能相信,現(xiàn)在研究 AI 的人都有足夠的責(zé)任感。好消息是我們還沒(méi)到達(dá)那一步,對(duì)吧?所以,我們有時(shí)間合作來(lái)解決這個(gè)問(wèn)題,確保 AI 真正為人類(lèi)服務(wù),而不是毀滅人類(lèi)。

主持人:是的。

黃學(xué)東:但是我短期的擔(dān)憂(yōu)是,AI 還不夠好!至少現(xiàn)在還不夠好!

正如比爾?蓋茨曾經(jīng)說(shuō)過(guò)的,人們總是高估了短期內(nèi)的能力,低估了長(zhǎng)期的影響。對(duì)于 AI,我們不能低估它的長(zhǎng)期影響。

主持人:最后,請(qǐng)說(shuō)說(shuō)你個(gè)人的故事吧。是什么讓你對(duì)研究感興趣,尤其是對(duì)語(yǔ)音和語(yǔ)言技術(shù)的研究感興趣,以及你加入微軟的經(jīng)歷是怎樣的?

黃學(xué)東:好的。我畢業(yè)于清華大學(xué)。那時(shí),我的第一臺(tái)電腦是 Apple 2。你可能知道,那時(shí)電腦輸入漢字是很麻煩的。因此,這讓我想到了語(yǔ)音識(shí)別。當(dāng)時(shí),作為清華的研究生,我的夢(mèng)想就是在 AI 領(lǐng)域做研究。

清華匯聚了一大批有遠(yuǎn)見(jiàn)的教授和教員,為我們的探索和實(shí)驗(yàn)創(chuàng)造了先進(jìn)的環(huán)境。所以,我在清華完成了碩士學(xué)位,接著繼續(xù)在清華讀博。從 1982 年起我就開(kāi)始做語(yǔ)音識(shí)別研究了,因?yàn)槲沂?1982 年被清華錄取的。對(duì)我來(lái)說(shuō),讓人類(lèi)真正與機(jī)器交流的這個(gè)夢(mèng)想從未消失。所以,我在這方面的研究已經(jīng)超過(guò) 30 年了。即使在微軟,有很短一段時(shí)間我不在做語(yǔ)音,但仍在做一些相關(guān)的事情。

所以,我打心眼里認(rèn)為我與語(yǔ)音研究之間是一個(gè)非常美妙的故事,我個(gè)人也在這個(gè)過(guò)程中收獲了許多有趣的經(jīng)歷。正如我剛才提到,在清華上學(xué)的時(shí)候,電腦輸入中文還是一件很難的事情。我實(shí)際上沒(méi)有在清華大學(xué)完成博士學(xué)位,而是在愛(ài)丁堡大學(xué)……

主持人:噢。

黃學(xué)東:在蘇格蘭。我在那里完成了博士學(xué)位。但當(dāng)我第一次來(lái)到愛(ài)丁堡時(shí),我個(gè)人感到非常痛苦 —— 我在中國(guó)學(xué)習(xí)英語(yǔ),主要是美式英語(yǔ)。我的英語(yǔ)不是很好,因?yàn)槟遣皇俏业哪刚Z(yǔ)。但是聽(tīng)一位蘇格蘭教授說(shuō)話(huà)的時(shí)候……

主持人:哦,天哪!

黃學(xué)東:…… 總之是很有挑戰(zhàn)性。但我很感激 BBC 有隱藏式字幕。所以,我實(shí)際上是通過(guò)看 BBC 學(xué)會(huì)了蘇格蘭英語(yǔ)。

而且我不得不提的是,現(xiàn)在微軟 PowerPoint 上已經(jīng)有自動(dòng)字幕技術(shù)了。從那段個(gè)人的痛苦經(jīng)歷,到 Office PowerPoint 團(tuán)隊(duì)在研發(fā)這款產(chǎn)品時(shí)考慮了這種功能,對(duì)我個(gè)人來(lái)說(shuō)也非常受益。

主持人:是的。

黃學(xué)東:我很高興看到我所研究的技術(shù)將幫助許多其他正在蘇格蘭上大學(xué)的人!

因?yàn)檎Z(yǔ)言障礙一直存在。不是每個(gè)人都能說(shuō)一口流利的英語(yǔ)。我接待了很多游客。幾乎每年我都會(huì)接待清華大學(xué)的 MBA 學(xué)生,他們都學(xué)過(guò)英語(yǔ),但他們的交談和聽(tīng)力能力,就是不如英語(yǔ)國(guó)家的人。所以,我們能夠在 ppt 演示上提供字幕這個(gè)簡(jiǎn)單的功能,實(shí)際上幫助了非常多的人……

主持人:是的。

黃學(xué)東:…… 為了更好地學(xué)習(xí)和理解。所以,這個(gè)功能的應(yīng)用場(chǎng)景實(shí)際上非常廣泛,甚至不需要翻譯。只要有字幕,就能更好地溝通。

主持人:確實(shí)。我們之前談到不同的語(yǔ)言,也談到一些方言,但我們并沒(méi)有探討語(yǔ)言中的口音問(wèn)題。即使是在美國(guó),各個(gè)地方也會(huì)因?yàn)榭谝舻牟煌与y以理解。

黃學(xué)東:這就是為什么我的蘇格蘭英語(yǔ)會(huì)變成一個(gè)好故事!我希望我還保留有一點(diǎn)蘇格蘭口音!

主持人:我聽(tīng)出來(lái)您的蘇格蘭口音了!在每期節(jié)目的最后,我都會(huì)請(qǐng)嘉賓最后說(shuō)一句話(huà)。現(xiàn)在請(qǐng)您對(duì)我們的聽(tīng)眾說(shuō)任何你想說(shuō)的話(huà),他們可能對(duì)使計(jì)算機(jī)能夠交談和溝通感興趣。如果他們想進(jìn)入這個(gè)領(lǐng)域,應(yīng)該從哪里入手呢?

黃學(xué)東:研究語(yǔ)音和語(yǔ)言!這是真正鑲在人工智能皇冠上的明珠。在我看來(lái),沒(méi)有比這更有挑戰(zhàn)性的了。尤其是如果你想要讓感知 AI 進(jìn)化到認(rèn)知 AI,更是如此。這是一個(gè)基本的研究領(lǐng)域,讓機(jī)器通過(guò)閱讀、交談來(lái)獲得推理、理解、獲取知識(shí)的能力,它可以改善每個(gè)人的生活,提高每個(gè)人的生產(chǎn)力,讓這個(gè)世界變得更加美好,沒(méi)有語(yǔ)言障礙,沒(méi)有溝通障礙,沒(méi)有理解障礙。

主持人:感謝您今天應(yīng)邀參加我們的播客節(jié)目。您分享的東西非常棒。

黃學(xué)東:我的榮幸。


聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 微軟
    +關(guān)注

    關(guān)注

    4

    文章

    6685

    瀏覽量

    105725
  • 人工智能
    +關(guān)注

    關(guān)注

    1806

    文章

    49008

    瀏覽量

    249289

原文標(biāo)題:對(duì)話(huà)微軟黃學(xué)東:語(yǔ)音和語(yǔ)言技術(shù)是真正鑲在AI皇冠上的明珠

文章出處:【微信號(hào):AI_era,微信公眾號(hào):新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    最新人工智能硬件培訓(xùn)AI 基礎(chǔ)入門(mén)學(xué)習(xí)課程參考2025版(大模型篇)

    人工智能大模型重塑教育與社會(huì)發(fā)展的當(dāng)下,無(wú)論是探索未來(lái)職業(yè)方向,還是更新技術(shù)儲(chǔ)備,掌握大模型知識(shí)都已成為新時(shí)代的必修課。從職場(chǎng)上輔助工作的智能助手,到課堂用于學(xué)術(shù)研究的智能工具,大模
    發(fā)表于 07-04 11:10

    智能亮相2025深圳國(guó)際人工智能展覽會(huì)

    近日,以 “智聯(lián)萬(wàn)物·端啟未來(lái)” 為主題的 2025 全球人工智能終端展暨第六屆深圳國(guó)際人工智能展盛大開(kāi)幕。這場(chǎng)人工智能領(lǐng)域的盛會(huì)匯聚了眾多國(guó)內(nèi)外領(lǐng)軍企業(yè),展示了人工智能終端
    的頭像 發(fā)表于 05-26 17:11 ?554次閱讀

    語(yǔ)音識(shí)別與自然語(yǔ)言處理的關(guān)系

    人工智能的快速發(fā)展中,語(yǔ)音識(shí)別和自然語(yǔ)言處理(NLP)成為了兩個(gè)重要的技術(shù)支柱。語(yǔ)音識(shí)別技術(shù)使
    的頭像 發(fā)表于 11-26 09:21 ?1491次閱讀

    嵌入式和人工智能究竟是什么關(guān)系?

    、連接主義和深度學(xué)習(xí)等不同的階段。目前,人工智能已經(jīng)廣泛應(yīng)用于各種領(lǐng)域,如自然語(yǔ)言處理、計(jì)算機(jī)視覺(jué)、智能推薦等。 嵌入式系統(tǒng)和人工智能在許多方面都存在密切的關(guān)聯(lián)性。首先,嵌入式系統(tǒng)可
    發(fā)表于 11-14 16:39

    LLM技術(shù)對(duì)人工智能發(fā)展的影響

    隨著人工智能技術(shù)的飛速發(fā)展,大型語(yǔ)言模型(LLM)技術(shù)已經(jīng)成為推動(dòng)AI領(lǐng)域進(jìn)步的關(guān)鍵力量。LLM技術(shù)通過(guò)深度學(xué)習(xí)和自然語(yǔ)言處理
    的頭像 發(fā)表于 11-08 09:28 ?1846次閱讀

    《AI for Science:人工智能驅(qū)動(dòng)科學(xué)創(chuàng)新》第6章人AI與能源科學(xué)讀后感

    探討了人工智能如何通過(guò)技術(shù)創(chuàng)新推動(dòng)能源科學(xué)的進(jìn)步,為未來(lái)的可持續(xù)發(fā)展提供了強(qiáng)大的支持。 首先,書(shū)中通過(guò)深入淺出的語(yǔ)言,介紹了人工智能在能源領(lǐng)域的基本概念和
    發(fā)表于 10-14 09:27

    AI for Science:人工智能驅(qū)動(dòng)科學(xué)創(chuàng)新》第4章-AI與生命科學(xué)讀后感

    很幸運(yùn)社區(qū)給我一個(gè)閱讀此書(shū)的機(jī)會(huì),感謝平臺(tái)。 《AI for Science:人工智能驅(qū)動(dòng)科學(xué)創(chuàng)新》第4章關(guān)于AI與生命科學(xué)的部分,為我們揭示了人工智能技術(shù)在生命科學(xué)領(lǐng)域中的廣泛應(yīng)用和深遠(yuǎn)影響。在
    發(fā)表于 10-14 09:21

    《AI for Science:人工智能驅(qū)動(dòng)科學(xué)創(chuàng)新》第一章人工智能驅(qū)動(dòng)的科學(xué)創(chuàng)新學(xué)習(xí)心得

    ,無(wú)疑為讀者鋪設(shè)了一條探索人工智能(AI)如何深刻影響并推動(dòng)科學(xué)創(chuàng)新的道路。在閱讀這一章后,我深刻感受到了人工智能技術(shù)在科學(xué)領(lǐng)域的廣泛應(yīng)用潛力以及其帶來(lái)的革命性變化,以下是我個(gè)人的學(xué)習(xí)心得: 1.
    發(fā)表于 10-14 09:12

    risc-v在人工智能圖像處理應(yīng)用前景分析

    和使用該技術(shù),無(wú)需支付專(zhuān)利費(fèi)或使用費(fèi)。這大大降低了人工智能圖像處理技術(shù)的研發(fā)成本,并吸引了大量的開(kāi)發(fā)者、企業(yè)和研究機(jī)構(gòu)參與其生態(tài)建設(shè)。 靈活性則體現(xiàn)在RISC-V可以根據(jù)不同的應(yīng)用場(chǎng)景進(jìn)行定制和優(yōu)化,從而
    發(fā)表于 09-28 11:00

    人工智能ai 數(shù)電 模電 模擬集成電路原理 電路分析

    人工智能ai 數(shù)電 模電 模擬集成電路原理 電路分析 想問(wèn)下哪些比較容易學(xué) 不過(guò)好像都是要學(xué)
    發(fā)表于 09-26 15:24

    人工智能ai4s試讀申請(qǐng)

    目前人工智能在繪畫(huà)對(duì)話(huà)等大模型領(lǐng)域應(yīng)用廣闊,ai4s也是方興未艾。但是如何有效利用ai4s工具助力科研是個(gè)需要研究的課題,本書(shū)對(duì)ai4s基本原理和原則,方法進(jìn)行描訴,有利于總結(jié)經(jīng)驗(yàn),擬按照要求準(zhǔn)備相關(guān)體會(huì)材料??茨芊裼兄谌腴T(mén)和提高ss
    發(fā)表于 09-09 15:36

    名單公布!【書(shū)籍評(píng)測(cè)活動(dòng)NO.44】AI for Science:人工智能驅(qū)動(dòng)科學(xué)創(chuàng)新

    活的世界? 編輯推薦 《AI for Science:人工智能驅(qū)動(dòng)科學(xué)創(chuàng)新》聚焦于人工智能與材料科學(xué)、生命科學(xué)、電子科學(xué)、能源科學(xué)、環(huán)境科學(xué)五大領(lǐng)域的交叉融合,通過(guò)深入淺出的語(yǔ)言和諸多實(shí)際應(yīng)用案例,介紹了
    發(fā)表于 09-09 13:54

    報(bào)名開(kāi)啟!深圳(國(guó)際)通用人工智能大會(huì)將啟幕,國(guó)內(nèi)外大咖齊聚話(huà)AI

    呈現(xiàn)、產(chǎn)業(yè)展覽、技術(shù)交流、學(xué)術(shù)論壇于一體的世界級(jí)人工智能合作交流平臺(tái)。本次大會(huì)暨博覽會(huì)由工業(yè)和信息化部政府采購(gòu)中心、廣東省工商聯(lián)、前海合作區(qū)管理局、深圳市工信局等單位指導(dǎo),深圳市人工智能產(chǎn)業(yè)協(xié)會(huì)主辦
    發(fā)表于 08-22 15:00

    OpenAI提前解鎖GPT-4o語(yǔ)音模式,引領(lǐng)對(duì)話(huà)新紀(jì)元

    OpenAI近日宣布了一項(xiàng)令人振奮的消息:即日起,部分ChatGPT Plus用戶(hù)將率先體驗(yàn)到GPT-4o的語(yǔ)音模式,這一創(chuàng)新功能標(biāo)志著自然語(yǔ)言處理與人工智能交互技術(shù)邁出了重要一步。G
    的頭像 發(fā)表于 08-01 18:24 ?1495次閱讀

    FPGA在人工智能中的應(yīng)用有哪些?

    定制化的硬件設(shè)計(jì),提高了硬件的靈活性和適應(yīng)性。 綜上所述,F(xiàn)PGA在人工智能領(lǐng)域的應(yīng)用前景廣闊,不僅可以用于深度學(xué)習(xí)的加速和云計(jì)算的加速,還可以針對(duì)特定應(yīng)用場(chǎng)景進(jìn)行定制化計(jì)算,為人工智能技術(shù)的發(fā)展提供有力支持。
    發(fā)表于 07-29 17:05