一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

參數(shù)少近一半,性能逼近谷歌Minerva,又一個數(shù)學大模型開源了

智能感知與物聯(lián)網(wǎng)技術(shù)研究所 ? 來源:未知 ? 2023-10-23 09:40 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

大模型家族來了一個專門解決數(shù)學問題的「新成員」——Llemma。

如今,在各種文本混合數(shù)據(jù)上訓練出來的語言模型會顯示出非常通用的語言理解和生成能力,可以作為基礎(chǔ)模型適應(yīng)各種應(yīng)用。開放式對話或指令跟蹤等應(yīng)用要求在整個自然文本分布中實現(xiàn)均衡的性能,因此更傾向于通用模型。

不過如果想要在某一領(lǐng)域(如醫(yī)學、金融或科學)內(nèi)最大限度地提高性能,那么特定領(lǐng)域的語言模型可能會以給定的計算成本提供更優(yōu)越的能力,或以更低的計算成本提供給定的能力水平。

普林斯頓大學、 EleutherAI 等的研究者為解決數(shù)學問題訓練了一個特定領(lǐng)域的語言模型。他們認為:首先,解決數(shù)學問題需要與大量的專業(yè)先驗知識進行模式匹配,因此是進行領(lǐng)域適應(yīng)性訓練的理想環(huán)境;其次,數(shù)學推理本身就是 AI 的核心任務(wù);最后,能夠進行強數(shù)學推理的語言模型是許多研究課題的上游,如獎勵建模、推理強化學習和算法推理。

因此,他們提出一種方法,通過對 Proof-Pile-2 進行持續(xù)的預(yù)訓練,使語言模型適應(yīng)數(shù)學。Proof-Pile-2 是數(shù)學相關(guān)文本和代碼的混合數(shù)據(jù)。將這一方法應(yīng)用于 Code Llama,可以得到 LLEMMA:7B 和 34B 的基礎(chǔ)語言模型,其數(shù)學能力得到了大幅提高。

wKgZomU10CaAfxDAAAFcpQH7b3o494.png

論文地址:https://arxiv.org/pdf/2310.10631.pdf

項目地址:https://github.com/EleutherAI/math-lm

LLEMMA 7B 的 4-shot Math 性能遠超谷歌 Minerva 8B,LLEMMA 34B 在參數(shù)少近一半的情況下性能逼近 Minerva 62B。

wKgZomU10CaAZk_oAAKgLyxaIIM868.png

具體來說,本文貢獻如下:

  • 1. 訓練并發(fā)布了 LLEMMA 模型:專門用于數(shù)學的 7B 和 34B 語言模型。LLEMMA 模型是在 MATH 上公開發(fā)布的基礎(chǔ)模型的最新水平。

  • 2. 發(fā)布了代數(shù)堆棧(AlgebraicStack),這是一個包含 11B 專門與數(shù)學相關(guān)的代碼 token 的數(shù)據(jù)集。

  • 3. 證明了 LLEMMA 能夠使用計算工具來解決數(shù)學問題,即 Python 解釋器和形式定理證明器。

  • 4. 與之前的數(shù)學語言模型(如 Minerva)不同,LLEMMA 模型是開放式的。研究者開放了訓練數(shù)據(jù)和代碼。這使得 LLEMMA 成為未來數(shù)學推理研究的一個平臺。

方法概覽

LLEMMA 是專門用于數(shù)學的 70B 和34B 語言模型。它由 Proof-Pile-2 上繼續(xù)對代碼 Llama 進行預(yù)訓練得到的。

wKgZomU10CaAe9GbAAG9tF6AKXA534.png

DATA: Proof-Pile-2

研究者創(chuàng)建了 Proof-Pile-2,這是一個 55B token 的科學論文、包含數(shù)學的網(wǎng)絡(luò)數(shù)據(jù)和數(shù)學代碼的混合物。除了 Lean proofsteps 子集之外,Proof-Pile-2 的知識截止日期為 2023 年 4 月。

wKgZomU10CaAbSQrAAH26m_Cmic200.png

數(shù)值模擬、計算機代數(shù)系統(tǒng)和形式定理證明器等計算工具對數(shù)學家的重要性與日俱增。因此,研究者創(chuàng)建了代數(shù)堆棧(AlgebraicStack),這是一個包含 17 種語言源代碼的 11B token 數(shù)據(jù)集,涵蓋數(shù)值數(shù)學、符號數(shù)學和形式數(shù)學。該數(shù)據(jù)集由來自 Stack、GitHub 公共資源庫和形式證明步驟數(shù)據(jù)的過濾代碼組成。表9顯示了AlgebraicStack 中各語言的 token 數(shù)量。

wKgZomU10CeAPe9rAAL9Lu3uqdc489.png

AlgebraicStack 中各語言的 token 數(shù)。

研究者了使用 OpenWebMath,這是一個由高質(zhì)量網(wǎng)頁組成的 15B token 數(shù)據(jù)集,其中過濾了數(shù)學內(nèi)容。OpenWebMath 根據(jù)數(shù)學相關(guān)關(guān)鍵詞和基于分類器的數(shù)學評分過濾 CommonCrawl 網(wǎng)頁,保留數(shù)學格式(如 LATEX、AsciiMath),并包含額外的質(zhì)量過濾器(如 plexity、domain、length)和近似重復(fù)。

除此之外,研究者還使用了 RedPajama 的 ArXiv 子集,它是 LLaMA 訓練數(shù)據(jù)集的開放再現(xiàn)。ArXiv 子集包含 29B 個詞塊。訓練混合數(shù)據(jù)由少量一般領(lǐng)域數(shù)據(jù)組成,起到了正則化的作用。由于 LLaMA 2 的預(yù)訓練數(shù)據(jù)集尚未公開,研究者使用 Pile 作為替代訓練數(shù)據(jù)集。

模型和訓練

每個模型都是從 Code Llama 初始化而來,該模型又初始化自 Llama 2,使用僅解碼器(deconder only)的 transformer 結(jié)構(gòu),在 500B 的代碼 token 上訓練而成。研究者使用標準自回歸語言建模目標,在 Proof-Pile-2 上繼續(xù)訓練 Code Llama 模型。這里,LLEMMA 7B 模型有 200B token,LLEMMA 34B 模型有 50B token。

研究者使用 GPT-NeoX 庫在 256 個 A100 40GB GPU 上,以 bfloat16 混合精度來訓練以上兩個模型。他們?yōu)?LLEMMA-7B 使用了世界大小為 2 的張量并行,為 34B 使用了世界大小為 8 的張量并行,以及跨數(shù)據(jù)并行副本的 ZeRO Stage 1 分片優(yōu)化器狀態(tài)。此外還使用 Flash Attention 2 來提高吞吐量并進一步降低內(nèi)存需求。

LLEMMA 7B 經(jīng)過了 42000 步的訓練,全局 batch 大小為 400 萬個 token,上下文長度為 4096 個 token。這相當于 23000 個 A100 時。學習率在 500 步后預(yù)熱到了 1?10^?4,然后在 48000 步后將余弦衰減到最大學習率的 1/30。

LLEMMA 34B 經(jīng)過了 12000 步的訓練,全局 batch 大小同樣為 400 萬個 token,上下文長度為 4096。這相當于 47000 個 A100 時。學習率在 500 步后預(yù)熱到了 5?10^?5,然后衰減到峰值學習率的 1/30。

評估結(jié)果

在實驗部分,研究者旨在評估 LLEMMA 是否可以作為數(shù)學文本的基礎(chǔ)模型。他們利用少樣本評估來比較 LLEMMA 模型,并主要關(guān)注沒有在數(shù)學任務(wù)監(jiān)督樣本上進行微調(diào)的 SOTA 模型。

研究者首先使用思維鏈推理和多數(shù)投票(majority voting)方法來評估 LLEMMA 求解數(shù)學題的能力,評估基準包括了 MATH 和 GSM8k。然后探索使用少樣本工具和定理證明。最后研究了內(nèi)存和數(shù)據(jù)混合的影響。

使用思維鏈(CoT)求解數(shù)學題

這些任務(wù)包括為 LATEX 或自然語言表示的問題生成獨立的文本答案,而無需使用外部工具。研究者使用到的評估基準有 MATH、GSM8k、 OCWCourses、SAT 和 MMLU-STEM。

結(jié)果如下表 1 所示,LLEMMA 在 Proof-Pile-2 語料庫上的持續(xù)預(yù)訓練在 5 個數(shù)學基準上均提升了少樣本性能,其中 LLEMMA 34B 在 GSM8k 上比 Code Llama 提高了 20 個百分點,在 MATH 上比 Code Llama 提高了 13 個百分點。同時 LLEMMA 7B 優(yōu)于專有的 Minerva 模型。

因此,研究者得到結(jié)論,在 Proof-Pile-2 上進行持續(xù)預(yù)訓練有助于提升預(yù)訓練模型求解數(shù)學題的能力。

wKgZomU10CeAPYmNAAO3NtutYDs350.png

使用工具求解數(shù)學題

這些任務(wù)包括使用計算工具來解題。研究者使用到的評估基準有 MATH+Python 和 GSM8k+Python。

結(jié)果如下表 3 所示,LLEMMA 在這兩項任務(wù)上均優(yōu)于 Code Llama。同時使用工具后在 MATH 和 GSM8k 上的性能也優(yōu)于沒有工具的情況。

wKgZomU10CeAQEzzAAHZi6G1Ss0371.png

形式數(shù)學

Proof-Pile-2 的 AlgebraicStack 數(shù)據(jù)集擁有 15 億 token 的形式數(shù)學數(shù)據(jù),包括提取自 Lean 和 Isabelle 的形式化證明。雖然對形式數(shù)學的全面研究超出了本文的探討范圍,但研究者在以下兩個任務(wù)上評估了 LLEMMA 的少樣本性能。

wKgZomU10CiAOFjoAAS1H2R2nlk848.png

非形式到形式證明任務(wù),即在給定形式命題、非形式 LATEX 命題和非形式 LATEX 證明的情況下,生成一個形式證明;

形式到形式證明任務(wù),即通過生成一系列證明步驟(或策略)來證明一個形式命題。

結(jié)果如下表 4 所示,LLEMMA 在 Proof-Pile-2 上的持續(xù)預(yù)訓練在兩個形式定理證明任務(wù)上提升了少樣本性能。

數(shù)據(jù)混合的影響

訓練語言模型時,一種常見的做法是根據(jù)混合權(quán)重對訓練數(shù)據(jù)的高質(zhì)量子集進行上采樣。研究者在幾個精心挑選的混合權(quán)重上進行了短期訓練,以此選擇混合權(quán)重。接著選擇了在一組高質(zhì)量 held-out 文本(這里使用了 MATH 訓練集)上能夠最小化困惑度的混合權(quán)重。

下表 5 顯示了使用 arXiv、web 和代碼等不同數(shù)據(jù)混合訓練后,模型的 MATH 訓練集困惑度。

wKgZomU10CiAdPjxAALJca0qrP0510.png

更多技術(shù)細節(jié)和評估結(jié)果參閱原論文。


原文標題:參數(shù)少近一半,性能逼近谷歌Minerva,又一個數(shù)學大模型開源了

文章出處:【微信公眾號:智能感知與物聯(lián)網(wǎng)技術(shù)研究所】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。


聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴

原文標題:參數(shù)少近一半,性能逼近谷歌Minerva,又一個數(shù)學大模型開源了

文章出處:【微信號:tyutcsplab,微信公眾號:智能感知與物聯(lián)網(wǎng)技術(shù)研究所】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    華為正式開源盤古7B稠密和72B混合專家模型

    [中國,深圳,2025年6月30日] 今日,華為正式宣布開源盤古70億參數(shù)的稠密模型、盤古Pro MoE 720億參數(shù)的混合專家模型和基于昇
    的頭像 發(fā)表于 06-30 11:19 ?458次閱讀

    看點:黃仁勛:全球一半AI人才都是中國人 富士康將在印度投資15億美元

    。全球有一半AI人員都是中國人,美國是無法阻止中國AI發(fā)展的。而且盛贊我國的Deepseek R1;黃仁勛表示Deepseek R1是款非常棒的產(chǎn)品。Deepseek R1是獻給世界的禮物 ;它還為世界各地的美國研究人員開辟
    的頭像 發(fā)表于 05-21 11:40 ?330次閱讀

    模型數(shù)學能力或許直都在關(guān)鍵在于如何喚醒它

    卻給出了令人震驚的答案:僅需 817 條精心設(shè)計的樣本,就能讓模型數(shù)學競賽級別的題目上超越當前許多最先進模型。這
    的頭像 發(fā)表于 02-17 17:44 ?545次閱讀
    大<b class='flag-5'>模型</b>的<b class='flag-5'>數(shù)學</b>能力或許<b class='flag-5'>一</b>直都在關(guān)鍵在于如何喚醒它

    ADS1256第次上電的時候,采集的ADC信號是實際值的一半,為什么?

    最近在用ADS1256這款A(yù)DC芯片,出現(xiàn)很怪異的問題。當我第次上電的時候,采集的ADC信號是實際值的
    發(fā)表于 12-13 15:33

    關(guān)于逆變器的電流峰值控制,為啥電流波形只有一半?

    我是用電流峰值控制方法去做反激式逆變器的。為啥我副邊電流波形只有一半呢。硬件定是好的,軟件是我自己寫的,不知道是程序哪里出了問題,希望能解答
    發(fā)表于 12-10 16:24

    Kimi發(fā)布新一代數(shù)學推理模型k0-math

    、考研以及包含入門競賽題的MATH等四個數(shù)學基準測試中,k0-math初代模型的表現(xiàn)超越o1-mini和o1-preview模型。而在兩
    的頭像 發(fā)表于 11-18 11:38 ?962次閱讀

    ADS8686S讀取值為實際值一半,是什么原因?qū)е碌模?/a>

    ADS8686S使用SPI串行通訊,軟件模式;SDOA單線數(shù)據(jù),終端配置±5V量程,剛開開始運行均正常,校準系數(shù)都對,突然code值變?yōu)?b class='flag-5'>一半;改變輸入值也成比例變化,錄波波形也正常,幅值也是一半
    發(fā)表于 11-18 07:48

    科技云報到:假開源真噱頭?開源模型和你想的不樣!

    查看、修改、分發(fā)。開源自此深刻影響了互聯(lián)網(wǎng)行業(yè)的每一個角落。 在大模型和GenAI崛起的當下,開源再次成為業(yè)界關(guān)注焦點,對于開源和閉源的爭論
    的頭像 發(fā)表于 11-03 10:46 ?589次閱讀

    在頻率較高時,如果用50Ω進行匹配,那么電壓是不是衰減一半?

    在頻率較高時,需要考慮阻抗匹配,如果用50Ω進行匹配,那么電壓是不是衰減一半?
    發(fā)表于 09-20 08:24

    用opa842連簡單的跟隨器,就是輸出端直接反饋到反向端,為什么輸出會衰減為一半?

    我用opa842連簡單的跟隨器,就是輸出端直接反饋到反向端,為什么輸出會衰減為一半? 第二問題,用opa842連同相放大器(反饋
    發(fā)表于 09-19 07:50

    開源鴻蒙】使用QEMU運行OpenHarmony輕量系統(tǒng)

    本文將會介紹如何從源碼安裝QEMU 6.2.0,以及如何使用QEMU運行OpenHarmony輕量系統(tǒng)。通過本文,你將會對QEMU和OpenHarmony輕量系統(tǒng)又一個初步的認知,并對如何使用QEMU又一個初步的理解和體會。
    的頭像 發(fā)表于 09-14 08:51 ?1348次閱讀
    【<b class='flag-5'>開源</b>鴻蒙】使用QEMU運行OpenHarmony輕量系統(tǒng)

    如何將輸出電壓降低一半?

    需要將輸出電壓降低一半,之前輸出電壓大概是0到10V左右,大家能給方案嗎?后面還要進行AD轉(zhuǎn)換,所以需要精確,不要電阻分壓。最好用TI的芯片。
    發(fā)表于 09-14 06:20

    使用VCA821進行可調(diào)增益倍數(shù)放大,輸出的信號只有一半放大,另一半沒有變化,為什么?

    使用VCA821進行可調(diào)增益倍數(shù)放大,下面是VCA821的原理圖,Vin是DA輸出信號,Vg是可調(diào)的搞電平輸出,Amax=20dB, 但是VCA821輸出的信號只有一半放大,另一半沒有變化。這個是偏置的問題嗎?有什么解決的方
    發(fā)表于 09-12 07:48

    Meta發(fā)布全新開源模型Llama 3.1

    科技巨頭Meta近期震撼發(fā)布其最新的開源人工智能(AI)模型——Llama 3.1,這舉措標志著Meta在AI領(lǐng)域的又一重大突破。Met
    的頭像 發(fā)表于 07-24 18:25 ?1783次閱讀

    Meta即將發(fā)布超強開源AI模型Llama 3-405B

    在人工智能領(lǐng)域的激烈競爭中,Meta公司再次擲出重磅炸彈,宣布將于7月23日正式發(fā)布其最新力作——Llama 3-405B,擁有驚人4050億參數(shù)開源
    的頭像 發(fā)表于 07-18 09:58 ?1333次閱讀