谷歌開發(fā)出一個(gè)新的語言模型，包含了超過1．6萬億個(gè)參數(shù)

開發(fā)人工智能的語言模型，一直是人工智能的重要細(xì)分領(lǐng)域。人工智能語言模型應(yīng)用包括搜索引擎、文字生成、個(gè)性化的對(duì)話工具以及軟件生成等。

2020年5月，OpenAI的一組研究人員發(fā)布了具有里程碑意義的AI模型GPT-3。GPT-3就是在570 GB的文本數(shù)據(jù)上訓(xùn)練的語言模型，因此，就訓(xùn)練數(shù)據(jù)和生成能力而言，GPT-3截至2020年都是最龐大的公開發(fā)布的語言模型。

此外，OpenAI的GPT-3一反之前死守基礎(chǔ)研究的思路，將 GPT-3 做成了一個(gè)服務(wù)，提供可以調(diào)用的 OpenAI API，并且向開放了少量體驗(yàn)資格，使得拿到體驗(yàn)資格的業(yè)界人士或?qū)W者等，開發(fā)出了一眾驚人的演示。

包括答題、翻譯、寫文章，甚至是數(shù)學(xué)計(jì)算和編寫代碼。而由GPT-3所寫的文章幾乎達(dá)到了以假亂真的地步，在 OpenAI 的測試中，人類評(píng)估人員也很難判斷出這篇新聞的真假，檢測準(zhǔn)確率僅為 12%。

但現(xiàn)在，谷歌研究人員開發(fā)出一個(gè)新的語言模型，它包含了超過 1．6 萬億個(gè)參數(shù)，遠(yuǎn)超 Open AI 開發(fā)的 GTP-3 的規(guī)模（1750 億個(gè)參數(shù)），成為迄今為止最大規(guī)模的人工智能語言模型，比之前谷歌開發(fā)過最大的語言模型 T5-XXL 的效率提高了 4 倍。

該語言模型使用 Switch Transformer 方法進(jìn)行大規(guī)模訓(xùn)練，這是一種“稀疏激活”技術(shù)，它只使用模型權(quán)重的子集或在模型中轉(zhuǎn)換輸入數(shù)據(jù)的參數(shù)，以有效降低計(jì)算密集度。

盡管在部分實(shí)驗(yàn)中，該模型相比規(guī)模更小的模型得到了較低分?jǐn)?shù)。但在相同的計(jì)算資源下，預(yù)訓(xùn)練速度提高了7倍。這些改進(jìn)擴(kuò)展到多語言設(shè)置中，我們?cè)谒?01種語言中測量mT5基本版本的增益。最后，我們通過在“巨大的干凈的爬蟲語料庫”上預(yù)先訓(xùn)練多達(dá)萬億個(gè)參數(shù)的模型，提高了語言模型的當(dāng)前規(guī)模，并實(shí)現(xiàn)了比T5-XXL模型4倍的加速。

研究人員認(rèn)為，稀疏性可以在未來賦予該模型在一系列不同媒體下多模態(tài)的優(yōu)勢。這也為人工智能語言模型的深入研究提供了更多方向的參考。

責(zé)任編輯：xj

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

AI

AI

+關(guān)注

關(guān)注
88

文章
35164

瀏覽量
280040
人工智能

人工智能

+關(guān)注

關(guān)注
1807

文章
49029

瀏覽量
249598
語言模型

語言模型

+關(guān)注

關(guān)注
0

文章
561

瀏覽量
10796

評(píng)論

精選推薦
更多

文章

資料

帖子

AI通話的N種新玩法，讓科幻照進(jìn)現(xiàn)實(shí)

腦極體
1天前

593 閱讀

三菱電機(jī)SiC DIPIPM在變頻家電中的應(yīng)用（2）

三菱電機(jī)半導(dǎo)體
18小時(shí)前

529 閱讀

三菱電機(jī)SiC DIPIPM在變頻家電中的應(yīng)用（1）

三菱電機(jī)半導(dǎo)體
18小時(shí)前

493 閱讀

英飛凌TLD7002-16 OTP PRG的常見問題解析

駿龍電子
18小時(shí)前

435 閱讀

DC/DC轉(zhuǎn)換器電路板安裝過程中的焊接技巧與導(dǎo)通檢查要點(diǎn)

駿龍電子
18小時(shí)前

530 閱讀

基于openHarmony移植的徽章視圖教程案例

姚小熊27
0.48 MB

免費(fèi)

0下載

PyAMPR高級(jí)微波輻射降水?dāng)?shù)據(jù)包

張波
16.56 MB

免費(fèi)

0下載

Blockstack Blockchain的DNS服務(wù)

張秀蘭
10.75 MB

2積分

1下載

jekyll-admin jekyll圖形管理界面插件

吳湛
1.41 MB

2積分

1下載

YMSwipeTableViewCell列表滑動(dòng)視圖

chunhuahua
5.17 MB

2積分

2下載

【VisionFive 2單板計(jì)算機(jī)試用體驗(yàn)】3、開源大語言模型部署

左岸cpx
1天前

130 閱讀

【M-K1HSE開發(fā)板免費(fèi)體驗(yàn)】DevEco Studio應(yīng)用開發(fā)體驗(yàn)(物理機(jī)器運(yùn)行失敗)

jf_1137202360
1天前

92 閱讀

【RA-Eco-RA6M4開發(fā)板評(píng)測】開箱、Hello World（串口+OLED）

jf_57061047
1天前

143 閱讀

省錢+環(huán)保+個(gè)性：打造一臺(tái)永不“過時(shí)”的自定義電腦！

早知
2天前

583 閱讀

【BPI-CanMV-K230D-Zero開發(fā)板體驗(yàn)】+溫度大氣壓檢測及顯示

jinglixixi
2天前

736 閱讀

推薦專欄
更多

企業(yè)產(chǎn)品

資料

方案
更多

搜索歷史

谷歌開發(fā)出一個(gè)新的語言模型，包含了超過1．6萬億個(gè)參數(shù)

評(píng)論

谷歌開發(fā)出一個(gè)新的語言模型，包含了超過1．6萬億個(gè)參數(shù)