一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

谷歌訓(xùn)練開發(fā)一個萬億參數(shù)的AI語言模型

lhl545545 ? 來源:比特網(wǎng) ? 作者:Yu ? 2021-01-18 16:19 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

參數(shù)是機(jī)器學(xué)習(xí)算法的關(guān)鍵。它們是從歷史訓(xùn)練數(shù)據(jù)中學(xué)到的模型的一部分。一般來說,在語言領(lǐng)域,參數(shù)的數(shù)量和復(fù)雜性之間的相關(guān)性非常好。例如,OpenAI的GPT-3是有史以來訓(xùn)練了1750億個參數(shù)的最大語言模型之一,它可以進(jìn)行原始類比、生成配方,甚至完成基本代碼。

近日,谷歌的研究人員開發(fā)了一種技術(shù),并對其進(jìn)行基準(zhǔn)測試,他們聲稱這種技術(shù)能夠訓(xùn)練包含超過一萬億參數(shù)的語言模型。他們表示,他們的1.6萬億參數(shù)模型是迄今為止最大的,比之前最大的谷歌開發(fā)的語言模型(T5-XXL)快了4倍。

研究人員指出,大規(guī)模訓(xùn)練是建立強(qiáng)大模型的有效途徑。簡單的架構(gòu),大數(shù)據(jù)集和參數(shù)計數(shù)的支持,超越了更復(fù)雜的算法。但是,大規(guī)模的訓(xùn)練雖然有效,但計算強(qiáng)度極高。這就是為什么研究人員追求他們所謂的Switch?Transformer,一種“稀疏激活”技術(shù),它只使用模型權(quán)重的子集,或轉(zhuǎn)換模型內(nèi)輸入數(shù)據(jù)的參數(shù)。

Switch?Transformer的新穎之處在于它有效地利用了為密集矩陣乘法(廣泛應(yīng)用于語言模型的數(shù)學(xué)運(yùn)算)設(shè)計的硬件,如GPU和TPU。在研究人員的分布式訓(xùn)練設(shè)置中,他們的模型將不同的權(quán)重分配到不同的設(shè)備上,這樣權(quán)重就會隨著設(shè)備數(shù)量的增加而增加,但在每個設(shè)備上都保持可管理的內(nèi)存和計算空間。

在一項實驗中,研究人員使用32個TPU內(nèi)核預(yù)先訓(xùn)練了幾種不同的Switch?Transformer模型,這個語料是一個750GB大小的數(shù)據(jù)集,包含從Reddit、Wikipedia和其他網(wǎng)絡(luò)資源上獲取的文本。他們讓這些模型預(yù)測有15%的單詞被掩蓋的段落中遺漏的單詞,以及其他挑戰(zhàn),比如檢索文本回答一系列越來越難的問題。

研究人員聲稱,與包含3950億個參數(shù)和64名專家的更小的模型(Switch-XXL)相比,他們發(fā)明的擁有2048名專家的1.6萬億參數(shù)模型(Switch-C)則“完全沒有訓(xùn)練不穩(wěn)定性”。

然而,在SQuAD的基準(zhǔn)測試上,Switch-C的得分卻更低(87.7),而Switch-XXL的得分為89.6,研究人員將此歸因于微調(diào)質(zhì)量、計算要求和參數(shù)數(shù)量之間的不明確關(guān)系。

在這種情況下,Switch?Transformer還是在許多下游任務(wù)上的效果有了提升。例如,在使用相同數(shù)量的計算資源的情況下,它可以使預(yù)訓(xùn)練的速度提高了7倍以上。

同時研究人員證明,大型稀疏模型可以用來創(chuàng)建更小、更稠密的模型,這些模型可以對任務(wù)進(jìn)行微調(diào),其質(zhì)量增益只有大型模型的30%?。

在一個測試中,一個?Switch?Transformer?模型被訓(xùn)練在100多種不同的語言之間進(jìn)行翻譯,研究人員觀察到其中101種語言都得到了普遍的改善。

在未來的工作中,研究人員計劃將Switch?Transformer應(yīng)用于新的和不同的形態(tài)中去,包括圖像和文本。他們認(rèn)為,模型稀疏性在一系列不同的媒體和多模態(tài)模型中都具有優(yōu)勢。
責(zé)任編輯:pj

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 谷歌
    +關(guān)注

    關(guān)注

    27

    文章

    6231

    瀏覽量

    108142
  • 機(jī)器學(xué)習(xí)

    關(guān)注

    66

    文章

    8503

    瀏覽量

    134618
  • 大數(shù)據(jù)
    +關(guān)注

    關(guān)注

    64

    文章

    8960

    瀏覽量

    140230
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    海思SD3403邊緣計算AI數(shù)據(jù)訓(xùn)練概述

    模型,將模型轉(zhuǎn)化為嵌入式AI模型,模型升級AI攝像機(jī),進(jìn)行
    發(fā)表于 04-28 11:11

    首創(chuàng)開源架構(gòu),天璣AI開發(fā)套件讓端側(cè)AI模型接入得心應(yīng)手

    模型全鏈路分析功能,針對AI應(yīng)用開發(fā)的三大痛點(diǎn)逐個擊破。 當(dāng)前AI應(yīng)用開發(fā)者在使用開發(fā)工具時會
    發(fā)表于 04-13 19:52

    訓(xùn)練好的ai模型導(dǎo)入cubemx不成功怎么處理?

    訓(xùn)練好的ai模型導(dǎo)入cubemx不成功咋辦,試了好幾個模型壓縮了也不行,ram占用過大,有無解決方案?
    發(fā)表于 03-11 07:18

    騰訊公布大語言模型訓(xùn)練新專利

    語言模型訓(xùn)練過程中引入第摘要文本和第二摘要文本,為模型提供了更為豐富的學(xué)習(xí)信息。這兩摘要
    的頭像 發(fā)表于 02-10 09:37 ?411次閱讀

    GPU是如何訓(xùn)練AI模型

    AI模型訓(xùn)練過程中,大量的計算工作集中在矩陣乘法、向量加法和激活函數(shù)等運(yùn)算上。這些運(yùn)算正是GPU所擅長的。接下來,AI部落小編帶您了解GPU是如何
    的頭像 發(fā)表于 12-19 17:54 ?747次閱讀

    AI語言模型開發(fā)步驟

    開發(fā)高效、準(zhǔn)確的大語言模型復(fù)雜且多階段的過
    的頭像 發(fā)表于 12-19 11:29 ?898次閱讀

    語言模型開發(fā)框架是什么

    語言模型開發(fā)框架是指用于訓(xùn)練、推理和部署大型語言模型的軟件工具和庫。下面,
    的頭像 發(fā)表于 12-06 10:28 ?526次閱讀

    語言模型開發(fā)語言是什么

    在人工智能領(lǐng)域,大語言模型(Large Language Models, LLMs)背后,離不開高效的開發(fā)語言和工具的支持。下面,AI部落小
    的頭像 發(fā)表于 12-04 11:44 ?701次閱讀

    云端語言模型開發(fā)方法

    云端語言模型開發(fā)復(fù)雜而系統(tǒng)的過程,涉及數(shù)據(jù)準(zhǔn)備、模型選擇、
    的頭像 發(fā)表于 12-02 10:48 ?690次閱讀

    從零開始訓(xùn)練語言模型需要投資多少錢?

    ,前言 ? 在AI領(lǐng)域,訓(xùn)練大型語言模型(LL
    的頭像 發(fā)表于 11-08 14:15 ?791次閱讀
    從零開始<b class='flag-5'>訓(xùn)練</b><b class='flag-5'>一</b><b class='flag-5'>個</b>大<b class='flag-5'>語言</b><b class='flag-5'>模型</b>需要投資多少錢?

    語言模型如何開發(fā)

    語言模型開發(fā)復(fù)雜且細(xì)致的過程,涵蓋了數(shù)據(jù)準(zhǔn)備、模型架構(gòu)設(shè)計、
    的頭像 發(fā)表于 11-04 10:14 ?605次閱讀

    AI模型訓(xùn)練數(shù)據(jù)來源分析

    學(xué)術(shù)機(jī)構(gòu)、政府組織或企業(yè)公開發(fā)布,涵蓋了各種類型的數(shù)據(jù),如圖像、文本、音頻、視頻等。例如: ImageNet :廣泛用于圖像識別任務(wù)的大規(guī)模圖像數(shù)據(jù)集。 Common Crawl :提供了大量的網(wǎng)頁抓取數(shù)據(jù)以供自然
    的頭像 發(fā)表于 10-23 15:32 ?3675次閱讀

    如何訓(xùn)練自己的AI模型

    訓(xùn)練自己的AI模型復(fù)雜且耗時的過程,涉及多個關(guān)鍵步驟。以下是
    的頭像 發(fā)表于 10-23 15:07 ?4984次閱讀

    英偉達(dá)Blackwell可支持10萬億參數(shù)模型AI訓(xùn)練,實時大語言模型推理

    、NVLink交換機(jī)、Spectrum以太網(wǎng)交換機(jī)和Quantum InfiniBand交換機(jī)。 ? 英偉達(dá)稱,Blackwell擁有6項革命性技術(shù),可支持多達(dá)10萬億參數(shù)模型進(jìn)行AI
    的頭像 發(fā)表于 09-04 09:10 ?3728次閱讀

    蘋果承認(rèn)使用谷歌芯片來訓(xùn)練AI

    蘋果公司最近在篇技術(shù)論文中披露,其先進(jìn)的人工智能系統(tǒng)Apple Intelligence背后的兩關(guān)鍵AI模型,是在谷歌設(shè)計的云端芯片上完
    的頭像 發(fā)表于 07-30 17:03 ?918次閱讀