一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

百川的大模型KnowHow介紹

深度學(xué)習(xí)自然語(yǔ)言處理 ? 來(lái)源:李rumor ? 2023-09-18 10:28 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

來(lái)自:李rumor

大模型是一個(gè)實(shí)驗(yàn)工程,涉及數(shù)據(jù)清洗、底層框架、算法策略等多個(gè)工序,每個(gè)環(huán)節(jié)都有很多坑,因此知道如何避坑和技術(shù)選型非常重要,可以節(jié)省很多算力和時(shí)間。

近期百川智能發(fā)布了Baichuan2的7B和13B版本,可能不少卷友被刷屏慣了沒(méi)有仔細(xì)看,他們?cè)诜懦瞿P偷耐瑫r(shí)也給了一份技術(shù)報(bào)告,里面干貨滿滿,因此我自來(lái)水一波,帶大家一起看看百川積累的KnowHow。同時(shí)也有一些我沒(méi)完全懂的地方,希望拋磚引玉,可以一起在評(píng)論區(qū)討論。

Pre-train

數(shù)據(jù)

數(shù)據(jù)多樣性

從不同的來(lái)源獲取數(shù)據(jù),最好建立一個(gè)類目體系,可以提升對(duì)整體數(shù)據(jù)分布的把控,方便后續(xù)增減。

進(jìn)行聚類和去重,可以通過(guò)LSH局部敏感或者稠密向量作為聚類特征,LSH更快一些,但向量可以更好地編碼語(yǔ)義。但這里有個(gè)問(wèn)題是需要卡閾值,去重過(guò)猛會(huì)影響多樣性降低泛化能力。因此百川選擇的做法是去除一部分,并對(duì)剩余的樣本打分,作為預(yù)訓(xùn)練時(shí)采樣的權(quán)重。

整體去重的流程如下(這里我沒(méi)太懂的是為何把Document去重放在最后一步,如果放在前面的環(huán)節(jié)應(yīng)該可以顯著減少句子和段落的數(shù)據(jù)量):

51a60930-52f0-11ee-a25d-92fbcf53809c.png

數(shù)據(jù)質(zhì)量

采用句子級(jí)別的分類器進(jìn)行過(guò)濾,這個(gè)是業(yè)內(nèi)常用做法了,但具體用什么數(shù)據(jù)訓(xùn)練,用什么標(biāo)準(zhǔn)標(biāo)注沒(méi)有細(xì)說(shuō)。

對(duì)于內(nèi)容安全,用規(guī)則和模型洗掉有害內(nèi)容,還額外找了一些正向價(jià)值觀的數(shù)據(jù)源,提升采樣概率。

模型結(jié)構(gòu)

Tokenizer

Tokenizer的難點(diǎn)是平衡壓縮比和詞表尺寸,比如頻繁出現(xiàn)的幾個(gè)中文是可以用1個(gè)token表示的,這樣inference時(shí)就會(huì)很快,但合并的話這幾個(gè)中文字單獨(dú)的embedding訓(xùn)練可能就不充分,跟其他字組合時(shí)語(yǔ)義表示會(huì)不夠好。

因此百川使用BPE,選擇了比較折中的12萬(wàn)大小,同時(shí)披露了以下細(xì)節(jié):

對(duì)原始數(shù)據(jù)不做任何歸一化

把數(shù)字完全拆開,可以更好理解數(shù)值數(shù)據(jù)

為了代碼數(shù)據(jù),專門增加空格token

覆蓋率在0.9999,只有少量fall back(一種避免OOV的方法,在碰到unknown中文時(shí)會(huì)變成utf8的byte token)

位置編碼

由于有外推的需求,最近位置編碼有很多新的工作,比較火的當(dāng)屬RoPE和ALiBi,這里百川都用了,因?yàn)樗麄儗?shí)驗(yàn)發(fā)現(xiàn)位置編碼并沒(méi)有顯著影響模型表現(xiàn),同時(shí)進(jìn)行了速度優(yōu)化:

RoPE + Flash Attention

ALiBi + xFormers

激活函數(shù)

采用了表現(xiàn)更好的SwiGLU,由于SwiGLU有三個(gè)矩陣,引入了更多參數(shù),因此百川縮小了FFN層的尺寸(4->8/3再處理成128的倍數(shù))。

Normalisations

對(duì)Transformer的輸入采用LayerNorm,對(duì)warm-up更魯棒

采用了RMSNorm的實(shí)現(xiàn),指計(jì)算輸入特征的方差,提升計(jì)算效率

混合精度

采用BF16,因?yàn)槠渚哂懈蟮姆秶?,可以讓?xùn)練更穩(wěn)定,但對(duì)于位置編碼、優(yōu)化器等,采用全精度。

提升穩(wěn)定性

NormHead:對(duì)輸出的表示進(jìn)行歸一化。首先低頻token的模會(huì)在訓(xùn)練中變小,進(jìn)行歸一化后可以提升穩(wěn)定性。另外百川通過(guò)對(duì)輸出表示聚類,發(fā)現(xiàn)cosine距離可以將相似語(yǔ)義的聚到一起而L2距離不行,歸一化可以消除最終計(jì)算logits時(shí)點(diǎn)乘中L2的影響。從實(shí)驗(yàn)結(jié)果可以明顯發(fā)現(xiàn)loss收斂更好更穩(wěn)定。

Max-z loss:在訓(xùn)練過(guò)程中,百川發(fā)現(xiàn)模型的logits都很大,這樣就會(huì)對(duì)解碼時(shí)的超參數(shù)魯棒性較低,因此增加max-z loss拉低logits的值。

注:對(duì)于預(yù)訓(xùn)練的優(yōu)化解讀跳過(guò)了Infra的部分,不是那么懂。。

Alignment

SFT

數(shù)據(jù)質(zhì)量:采用抽檢的方式進(jìn)行質(zhì)量把控,抽一批數(shù)據(jù)檢查,不合格全部退回。

數(shù)據(jù)數(shù)量:100k(目前開源SFT數(shù)據(jù)還是挺多的,不知道百川出于什么考慮

Reward Model

Prompt多樣性:構(gòu)造了一個(gè)200+細(xì)分類目的數(shù)據(jù)體系,盡可能覆蓋用戶需求,同時(shí)提升每類prompt多樣性,從而提升泛化能力

Response多樣性:用不同尺寸和階段的百川模型生成答案,不使用其他開源模型(經(jīng)驗(yàn)證無(wú)法提升RM準(zhǔn)確率)

PPO

預(yù)先對(duì)critic模型進(jìn)行了warmup

為提升RL穩(wěn)定性,進(jìn)行梯度裁剪

安全

由于模型開源,百川在內(nèi)容安全上非常細(xì)致,包括:

聘請(qǐng)10位專業(yè)審核人員構(gòu)建了100+安全類目

用50人的標(biāo)注團(tuán)隊(duì)構(gòu)建了200K攻擊指令

對(duì)于攻擊指令,生產(chǎn)多樣性很大的回答

總結(jié)

Baichuan2的效果比第一版提升了很多,在推理任務(wù)上效果翻倍,是目前開源模型中過(guò)了最多中文語(yǔ)料的模型。

審核編輯:湯梓紅

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 算法
    +關(guān)注

    關(guān)注

    23

    文章

    4710

    瀏覽量

    95409
  • 開源
    +關(guān)注

    關(guān)注

    3

    文章

    3690

    瀏覽量

    43840
  • 函數(shù)
    +關(guān)注

    關(guān)注

    3

    文章

    4381

    瀏覽量

    64908
  • 大模型
    +關(guān)注

    關(guān)注

    2

    文章

    3146

    瀏覽量

    4076

原文標(biāo)題:總結(jié)

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    白??萍寂c百川智能順勢(shì)而為、攜手共進(jìn),助力領(lǐng)域大模型應(yīng)用快速落地

    (2023年08月08日,中國(guó)北京訊)近日,AI基礎(chǔ)軟件服務(wù)商白海科技與國(guó)內(nèi)領(lǐng)先的AGI服務(wù)企業(yè)百川智能宣布達(dá)成戰(zhàn)略合作協(xié)議。這次合作旨在加速大語(yǔ)言模型在各行各業(yè)的應(yīng)用,并為客戶提供智能高效
    的頭像 發(fā)表于 08-08 14:23 ?1425次閱讀

    百川ESD產(chǎn)品簡(jiǎn)介 2017版

    百川ESD產(chǎn)品簡(jiǎn)介
    發(fā)表于 10-09 16:26 ?0次下載

    ?;履茉丛佾@百川股份資金加持

    海基新能源為百川股份參股公司,此次增資前,百川股份合計(jì)持股26.55%。百川股份表示,本次增資有利于擴(kuò)大?;履茉翠囯婍?xiàng)目產(chǎn)能規(guī)模,滿足其未來(lái)發(fā)展對(duì)資金的需求。
    的頭像 發(fā)表于 12-28 10:11 ?3925次閱讀

    百川智能獲阿里騰訊小米等3億美元投資

    百川智能推出了4款開源baichuan-7b/13b、baichuan 2-7b/13b的免費(fèi)商用產(chǎn)品和baichuan-53b、baichuan 2-53b的閉源大模型,平均每28天推出一次新的大模型。
    的頭像 發(fā)表于 10-17 10:15 ?999次閱讀

    百川智能發(fā)布Baichuan2 Turbo系列API,或?qū)⑻娲袠I(yè)大模型

    在當(dāng)天的媒體溝通會(huì)上,百川智能創(chuàng)始人、CEO王小,百川智能聯(lián)合創(chuàng)始人、聯(lián)席總裁洪濤,百川智能技術(shù)聯(lián)創(chuàng)陳煒鵬及百川智能商用業(yè)務(wù)部總經(jīng)理李劍共
    的頭像 發(fā)表于 12-20 16:54 ?1343次閱讀

    搜索出生的百川智能大模型RAG爬坑之路總結(jié)

    今天對(duì)百川的RAG方法進(jìn)行解讀,百川智能具有深厚的搜索背景,來(lái)看看他們是怎么爬RAG的坑的吧~
    的頭像 發(fā)表于 01-05 15:02 ?2088次閱讀
    搜索出生的<b class='flag-5'>百川</b>智能大<b class='flag-5'>模型</b>RAG爬坑之路總結(jié)

    百川智能發(fā)布超千億大模型Baichuan 3

    百川智能近日發(fā)布了超千億參數(shù)的大語(yǔ)言模型Baichuan 3,引發(fā)了業(yè)界的廣泛關(guān)注。這款模型在多個(gè)權(quán)威通用能力評(píng)測(cè)中表現(xiàn)卓越,展現(xiàn)了其強(qiáng)大的語(yǔ)義理解和生成能力。
    的頭像 發(fā)表于 01-31 14:58 ?1206次閱讀

    數(shù)勢(shì)聯(lián)動(dòng)百川,發(fā)布首批大模型聯(lián)合解決方案,推動(dòng)中國(guó)大模型價(jià)值落地

    近日,行業(yè)領(lǐng)先的數(shù)據(jù)智能產(chǎn)品提供商北京數(shù)勢(shì)云創(chuàng)科技有限公司(以下簡(jiǎn)稱“數(shù)勢(shì)科技”)和國(guó)內(nèi)通用大模型廠商北京百川智能科技有限公司(以下簡(jiǎn)稱“百川”)聯(lián)合發(fā)布大模型數(shù)據(jù)分析垂直領(lǐng)域應(yīng)用解決
    的頭像 發(fā)表于 02-28 11:40 ?770次閱讀
    數(shù)勢(shì)聯(lián)動(dòng)<b class='flag-5'>百川</b>,發(fā)布首批大<b class='flag-5'>模型</b>聯(lián)合解決方案,推動(dòng)中國(guó)大<b class='flag-5'>模型</b>價(jià)值落地

    百川智能發(fā)布Baichuan 4大模型及首款A(yù)I助手“小應(yīng)”

    百川智能近日發(fā)布了其新一代基座大模型Baichuan 4,并同步推出了首款A(yù)I助手“小應(yīng)”。這款A(yù)I助手是在Baichuan 4強(qiáng)大能力的基礎(chǔ)上,結(jié)合先進(jìn)的搜索技術(shù)精心打造而成。
    的頭像 發(fā)表于 05-23 14:15 ?966次閱讀

    亞馬遜云科技接入百川智能和零一萬(wàn)物基礎(chǔ)模型

    近日,亞馬遜云科技在中國(guó)峰會(huì)上宣布,兩大中文基礎(chǔ)模型——百川智能的Baichuan2-7B和零一萬(wàn)物的Yi-1.5 6B/9B/34B,即將或已正式登陸中國(guó)區(qū)域的SageMaker JumpStart。這一舉措為中國(guó)企業(yè)提供了豐富的模型
    的頭像 發(fā)表于 06-04 11:53 ?827次閱讀

    百川智能完成50億元A輪融資

    近日,國(guó)內(nèi)領(lǐng)先的醫(yī)療AI大模型企業(yè)——百川智能,正式宣布完成了高達(dá)50億元人民幣的A輪融資,這一里程碑式的融資不僅彰顯了市場(chǎng)對(duì)其技術(shù)實(shí)力與未來(lái)發(fā)展?jié)摿Φ母叨日J(rèn)可,也為公司的后續(xù)發(fā)展奠定了堅(jiān)實(shí)的資金基礎(chǔ)。
    的頭像 發(fā)表于 07-26 16:42 ?782次閱讀

    模型廠商“輸血”不斷,百川智能完成50億元A輪融資!

    有重磅消息曝出:知名大模型公司百川智能已經(jīng)成功收獲了價(jià)值50億元的A輪融資。由此,我們不禁感嘆,大模型廠商們的“輸血”和“續(xù)命”之戰(zhàn),還在激烈的上演著。
    的頭像 發(fā)表于 07-31 14:47 ?931次閱讀
    大<b class='flag-5'>模型</b>廠商“輸血”不斷,<b class='flag-5'>百川</b>智能完成50億元A輪融資!

    百川智能發(fā)布一站式大模型商業(yè)化解決方案

    近日,百川智能正式推出了一站式大模型商業(yè)化解決方案,旨在為企業(yè)提供更加全面、高效的大模型應(yīng)用服務(wù)。該解決方案以1+3產(chǎn)品矩陣為核心,包括全鏈路優(yōu)質(zhì)通用訓(xùn)練數(shù)據(jù)、Baichuan4-Turbo和Baichuan4-Air兩款
    的頭像 發(fā)表于 11-01 18:01 ?1306次閱讀

    百川智能發(fā)布Baichuan4-Finance金融大模型

    近日,百川智能正式推出了其全鏈路領(lǐng)域增強(qiáng)的金融大模型——Baichuan4-Finance。這一創(chuàng)新產(chǎn)品的發(fā)布,標(biāo)志著百川智能在金融智能化領(lǐng)域邁出了重要一步。 Baichuan4-Finance
    的頭像 發(fā)表于 12-25 10:11 ?628次閱讀

    百川智能發(fā)布全場(chǎng)景深度思考模型Baichuan-M1-preview

    1月24日,百川智能正式發(fā)布了全場(chǎng)景深度思考模型Baichuan-M1-preview。 Baichuan-M1-preview同時(shí)具備語(yǔ)言、視覺(jué)和搜索三大領(lǐng)域推理能力的模型。在數(shù)學(xué)、代碼等權(quán)威評(píng)測(cè)
    的頭像 發(fā)表于 01-24 14:40 ?1028次閱讀