国产亚洲女主播AⅤ,亚洲AV无码乱码国产精品黑人,亚洲激情五月婷婷国产无码精品二区

會話 AI 服務(wù)已經(jīng)存在多年，但不論是聊天機(jī)器人，還是智能個人助理或搜索引擎，其理解能力很難達(dá)到與人類相當(dāng)?shù)乃健?strong>主要瓶頸則在于超大型AI模型的實(shí)施部署無法實(shí)現(xiàn)。正因如此，不論是Google、Microsoft、Facebook，還是阿里巴巴、百度等，都在模型的部署方面孜孜以求。

NVIDIA于太平洋時間8月13日宣布重大突破：BERT訓(xùn)練時間實(shí)現(xiàn)創(chuàng)紀(jì)錄的53分鐘，推理時間縮短至2毫秒，并構(gòu)建了迄今為止同類型中最大的語言模型，使得實(shí)時會話 AI與用戶進(jìn)行互動時更為自然。

超大模型面前，GPU再證強(qiáng)大可擴(kuò)展性

BERT（Bidirectional Encoder Representations from Transformers）是世界上最先進(jìn)的AI語言模型之一，Google于去年發(fā)布不久就刷爆AI業(yè)界。作為一種新型的語言模型，它只需一個額外的輸出層對預(yù)訓(xùn)練BERT進(jìn)行微調(diào)就可以滿足各種任務(wù)，而無需再對模型進(jìn)行修改，實(shí)現(xiàn)了在11項NLP任務(wù)上取得突破進(jìn)展。

在對BERT模型進(jìn)行訓(xùn)練時，NVIDIA使用搭載了92臺 NVIDIA DGX-2H系統(tǒng)的 NVIDIA DGX SuperPOD運(yùn)行該模型的大型版本，憑借1472個NVIDIA V100 GPU的強(qiáng)大性能，NVIDIA將BERT-Large的典型訓(xùn)練時間從幾天縮短至僅僅 53 分鐘。

此外，NVIDIA還在單獨(dú)一臺NVIDIA DGX-2系統(tǒng)上執(zhí)行了BERT-Large 模型的訓(xùn)練任務(wù)，用時也僅為 2.8天，充分體現(xiàn)了GPU在會話 AI 方面的可擴(kuò)展性。

推理方面，借助于運(yùn)行了NVIDIA TensorRT的NVIDIA T4 GPU，NVIDIA 執(zhí)行 BERT-Base SQuAD數(shù)據(jù)集的推理任務(wù)，用時僅為2.2毫秒，遠(yuǎn)低于許多實(shí)時應(yīng)用程序所需的10毫秒處理閾值；與使用高度優(yōu)化的CPU代碼時所測得的40多毫秒相比，有著顯著改進(jìn)。

對此，NVIDIA 深度學(xué)習(xí)應(yīng)用研究副總裁 Bryan Catanzaro 表示，“對于適用于自然語言的AI而言，大型語言模型正在為其帶來革新。NVIDIA 所取得的突破性工作成果加速了這些模型的創(chuàng)建，它們能夠幫助解決那些最為棘手的語言問題，讓我們距離實(shí)現(xiàn)真正的會話 AI 更進(jìn)了一步。

NVIDIA BERT推理解決方案Faster Transformer宣布開源

開發(fā)者們對于更大模型的需求正在日益增長，NVIDIA 研究團(tuán)隊基于Transformer構(gòu)建并訓(xùn)練了世界上最大的語言模型。Transformer是BERT的技術(shù)構(gòu)件，正被越來越多的其他自然語言AI模型所使用。NVIDIA定制的模型包含83億個參數(shù)，是BERT-Large的24 倍。

2017年12月Google在論文“Attention is All You Need”中首次提出了Transformer，將其作為一種通用高效的特征抽取器。至今，Transformer已經(jīng)被多種NLP模型采用，比如BERT以及上月發(fā)布重刷其記錄的XLNet，這些模型在多項NLP任務(wù)中都有突出表現(xiàn)。在NLP之外，TTS、ASR等領(lǐng)域也在逐步采用Transformer?？梢灶A(yù)見，Transformer這個簡潔有效的網(wǎng)絡(luò)結(jié)構(gòu)會像CNN和RNN一樣被廣泛采用。

不過，雖然Transformer在多種場景下都有優(yōu)秀表現(xiàn)，但是在推理部署階段，其計算性能卻受到了巨大的挑戰(zhàn)：以BERT為原型的多層Transformer模型，其性能常常難以滿足在線業(yè)務(wù)對于低延遲（保證服務(wù)質(zhì)量）和高吞吐（考慮成本）的要求。以BERT-BASE為例，超過90%的計算時間消耗在12層Transformer的前向計算上。因此，一個高效的Transformer 前向計算方案，既可以為在線業(yè)務(wù)帶來降本增效的作用，也有利于以Transformer結(jié)構(gòu)為核心的各類網(wǎng)絡(luò)在更多實(shí)際工業(yè)場景中落地。

NVIDIA GPU計算專家團(tuán)隊針對Transformer推理提出的性能優(yōu)化方案Faster Transformer宣布開源，其底層基于CUDA和cuBLAS，是一個BERT Transformer 單層前向計算的高效實(shí)現(xiàn)，其代碼簡潔明了，后續(xù)可以通過簡單修改支持多種Transformer結(jié)構(gòu)。目前優(yōu)化集中在編碼器（encoder）的前向計算（解碼器decoder開發(fā)在后續(xù)特性規(guī)劃中），能夠助力于多種BERT的應(yīng)用場景。Faster Transformer對外提供C++ API，TensorFlow OP 接口，以及TensorRT插件，并提供了相應(yīng)的示例，用以支持用戶將其集成到不同的線上應(yīng)用代碼中。

2021年15%的客服互動將通過AI完成

預(yù)計未來幾年，基于自然語言理解的 AI 服務(wù)將呈指數(shù)級增長。根據(jù)Juniper Research 的研究表明，在未來4年中，僅數(shù)字語音助手的數(shù)量就將有望從25 億攀升到 80 億。此外，據(jù)Gartner預(yù)計，到 2021 年，15%的客服互動都將通過AI完成，相比2017年將增長4倍。

當(dāng)前，全球數(shù)以百計的開發(fā)者都使用 NVIDIA 的 AI 平臺，來推進(jìn)他們自己的語言理解研究并創(chuàng)建新的服務(wù)。

Microsoft Bing正在通過先進(jìn)的 AI 模型和計算平臺，為客戶提供更好的搜索體驗(yàn)。通過與 NVIDIA 密切合作，Bing 使用 NVIDIA GPU（Azure AI 基礎(chǔ)設(shè)施的一部分）進(jìn)一步優(yōu)化了熱門自然語言模型 BERT 的推理功能，從而大幅提升了 Bing 于去年部署的排名搜索的搜索質(zhì)量。與基于 CPU 的平臺相比，使用 Azure NVIDIA GPU 進(jìn)行推理，延遲降低了一半，吞吐量提升了5倍。

多家初創(chuàng)公司（例如Clinc、Passage AI 和Recordsure等）正在使用 NVIDIA的AI平臺為銀行、汽車制造商、零售商、醫(yī)療服務(wù)提供商、旅行社和酒店等客戶構(gòu)建先進(jìn)的會話 AI 服務(wù)。據(jù)悉，中國市場也有相應(yīng)的合作伙伴，日后將進(jìn)一步公開。

會話AI才是真正意義上的人工智能的基本特征，不論是語言模型還是訓(xùn)練、推理，底層技術(shù)的逐步強(qiáng)大，才是實(shí)現(xiàn)這一切的基礎(chǔ)。距離我們所期望的人工智能雖然還很遙遠(yuǎn)，但技術(shù)上的每一次突破都值得記載。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴