一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

源1.0在數(shù)學(xué)推理任務(wù)方面的解決方案和表現(xiàn)

浪潮AIHPC ? 來源:浪潮AIHPC ? 作者:浪潮AIHPC ? 2022-11-11 11:54 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

“源1.0”大模型是浪潮信息發(fā)布的中文巨量模型,參數(shù)量高達(dá)2457億,在中文語言能力理解和生成評(píng)測(cè)基準(zhǔn)CUGE總榜中取得榜首,并獲得語言理解(篇章級(jí))、語言生成、對(duì)話交互、多語言、數(shù)學(xué)推理等5項(xiàng)評(píng)測(cè)最佳成績(jī)。其中在數(shù)學(xué)推理評(píng)測(cè)中,源1.0大模型完成1000道小學(xué)數(shù)學(xué)應(yīng)用題,以76.9的高分大幅領(lǐng)先。

數(shù)學(xué)對(duì)邏輯和推理能力有極強(qiáng)的要求,以往大模型在數(shù)學(xué)領(lǐng)域表現(xiàn)欠佳。源1.0為何能取得這么好的成績(jī)?本文將介紹數(shù)學(xué)推理任務(wù)的背景、研究現(xiàn)狀,以及源1.0在數(shù)學(xué)推理任務(wù)方面的解決方案和表現(xiàn)。

數(shù)學(xué)單詞問題的研究背景及意義

數(shù)學(xué)單詞問題,即Math Word Problem(MWP),其主要目標(biāo)是根據(jù)自然語言文字描述的內(nèi)容解決相應(yīng)的數(shù)學(xué)問題。也就是說,對(duì)于給定的數(shù)學(xué)問題,模型需要理解相關(guān)文字的數(shù)學(xué)含義,并推理出正確的表達(dá)式。

一個(gè)典型的MWP示例如下。

a755b596-60da-11ed-8abf-dac502259ad0.png問題:“快車和慢車同時(shí)從相距450千米的兩城相對(duì)開出,4.5小時(shí)后兩車還相距90千米,快車和慢車的速度比為9:7,慢車每小時(shí)行多少千米?”

表達(dá)式:(450-90)/4.5*7/(9+7)

結(jié)果:35

不難發(fā)現(xiàn),該題目除了要求模型能夠理解基本的加減乘除法之外,還需要理解什么是比例問題。此外,若將問題中的“相對(duì)開出”改為“相反方向開出”,將會(huì)導(dǎo)致問題的數(shù)學(xué)邏輯大相徑庭。如何讓模型分辨出語言表達(dá)上的差異,并正確地推理出對(duì)應(yīng)的表達(dá)式是MWP任務(wù)的基本要求。

需要注意的是,在上面的MWP中,表達(dá)式中所需的數(shù)字量均可以在問題中找到,但在某些情況下,表達(dá)式中所需要的數(shù)字量并不會(huì)全部包含在問題中。例如,在含有分?jǐn)?shù)的MWP示例中(如下紅框中所示),需要根據(jù)題目中的數(shù)學(xué)邏輯,在表達(dá)式中額外添加相應(yīng)的數(shù)字量“1”。同樣的問題還常見于計(jì)算圓的周長或面積時(shí),需要額外添加數(shù)字量“3.14”。

a755b596-60da-11ed-8abf-dac502259ad0.png問題:“一根電線長80米,第一次截去的全長的2/5,第二次截去了余下的1/4,這根電線還剩多少米?”

表達(dá)式:80*(1-2/5-(1-2/5)*1/4)

結(jié)果:36

毫無疑問,MWP任務(wù)給模型的語言理解能力和數(shù)學(xué)推理能力都帶來了極大的挑戰(zhàn),如何解決MWP任務(wù)也是NLP領(lǐng)域的研究熱點(diǎn)之一。

數(shù)字單詞問題的研究現(xiàn)狀

實(shí)際上,直到2016年MWP的任務(wù)精度仍然比較有限。關(guān)于MWP任務(wù)在2016年之前的研究在此不作細(xì)述,相關(guān)綜述可參考論文:

How well do Computers Solve Math Word Problems? Large-Scale Dataset Construction and Evaluation (Huang et al., ACL 2016)

近幾年,借助DNN解決MWP任務(wù)的方法顯著提升了MWP任務(wù)精度,這些方法大致可以分為以下三類:基于seq2seq模型、基于seq2tree模型和基于預(yù)訓(xùn)練模型。

|基于seq2seq模型

該方法是由Wang Yan等學(xué)者[1]首次應(yīng)用在MWP任務(wù)上,并在大規(guī)模多題型的數(shù)據(jù)集(Math23K)上取得了顯著的效果(對(duì)于Math23K數(shù)據(jù)集將在后續(xù)內(nèi)容中進(jìn)行說明)。該方法本質(zhì)上是采用Encoder-Decoder(enc-dec)結(jié)構(gòu)直接完成了從“問題”到“表達(dá)式”的映射。值得一提的是,前述的Math23K數(shù)據(jù)集規(guī)模較大題型較多(約22000道),是目前MWP任務(wù)評(píng)測(cè)的benchmark。

此外,通過設(shè)計(jì)不同的Encoder和Decoder結(jié)構(gòu)可以得到改進(jìn)后的seq2seq方法。不過令人驚訝的是,Transformer結(jié)構(gòu)的enc-dec并未在Math23K數(shù)據(jù)集上表現(xiàn)出明顯的優(yōu)勢(shì);而采用LSTM結(jié)構(gòu)作為enc-dec的LSTMVAE方法表現(xiàn)最佳。

|基于seq2tree模型

基于Seq2tree模型實(shí)際上是基于seq2seq模型的變種,簡(jiǎn)單來說,就是將number-mapping后的表達(dá)式轉(zhuǎn)化為樹結(jié)構(gòu)作為模型訓(xùn)練的輸出(如圖1所示),由于父節(jié)點(diǎn)與子節(jié)點(diǎn)處的數(shù)學(xué)符號(hào)以及連接方式是固定的,這種方式能夠有效地限制表達(dá)式的多樣性。這里,表達(dá)式的多樣性可以理解為針對(duì)同一個(gè)問題可以列出不同的表達(dá)式,例如n1+n2-n3還可以寫成n2+n1-n3或者n1+(n2-n3)。

a77c78d4-60da-11ed-8abf-dac502259ad0.jpg

圖1 樹結(jié)構(gòu)化的表達(dá)式生成示意

在前述基礎(chǔ)下,基于seq2tree模型的MWP任務(wù)解決方法應(yīng)運(yùn)而生,其核心思想是將原先的decoder被替換成了tree-based decoder。至此,MWP任務(wù)解決思路似乎主要集中在如何替換encoder和decoder問題上。例如,Wang Lei等學(xué)者又調(diào)整了encoder結(jié)構(gòu),提出了Graph2tree的方法并且在Math23K任務(wù)上精度高達(dá)75%。

|基于預(yù)訓(xùn)練模型

Wang Lei等學(xué)者[3]發(fā)現(xiàn)BERTGen和RoBERTGen(Dec:BERT、RoBERT;Enc:Transformer)在Math23K數(shù)據(jù)集上表現(xiàn)較為優(yōu)秀(76.9%)。此外,他們還驗(yàn)證了GPT-2模型在Math23K數(shù)據(jù)集上的表現(xiàn)(74.3%),結(jié)果稍遜于基于BERT模型的方法,這可能是GPT-2模型結(jié)構(gòu)的原因(Decoder結(jié)構(gòu))。

|其他MWP任務(wù)解決方法

根據(jù)前述方法,可以看到的是encoder采用BERT模型較好,decoder采用tree-based方式較好,若將兩者結(jié)合形成BERT encoder + tree-based decoder[4],其在Math23K數(shù)據(jù)集上的精度達(dá)到了驚人的84.4%,是目前Math23K任務(wù)的baseline。

此外,在眾多MWP任務(wù)解決方法中Recall and learn方法[5]是十分值得一提的。該方法跳出了經(jīng)典的enc-dec結(jié)構(gòu),通過模擬人腦在解決問題時(shí)的類比能力,推理出數(shù)學(xué)問題的表達(dá)式,最終該方法在Math23K任務(wù)上的精度能夠達(dá)到82.3%。

“源1.0”大模型的MWP任務(wù)解決方案

需要指出的是,盡管構(gòu)建單個(gè)技能模型在一定程度上能夠較好地完成MWP任務(wù),但現(xiàn)有技能模型絕大多數(shù)仍采用的是encoder-decoder結(jié)構(gòu),針對(duì)類似decoder結(jié)構(gòu)下(如GPT-2)的模型數(shù)值推理能力的研究仍然較少。此外,從實(shí)現(xiàn)通用人工智能的目標(biāo)來看,提升通用大模型的數(shù)值推理能力是十分必要的。

接下來,將詳細(xì)介紹浪潮信息的“源1.0”大模型(decoder結(jié)構(gòu))在Math23K任務(wù)上的相關(guān)工作,希望能夠?qū)μ嵘ㄓ么竽P偷臄?shù)值推理能力有所啟發(fā)?!霸?.0”大模型在數(shù)學(xué)推理能力方面目前位列中文語言能力評(píng)測(cè)基準(zhǔn)CUGE榜首。

| 目標(biāo)導(dǎo)向的問答式Prompt設(shè)計(jì)

Math23K的標(biāo)準(zhǔn)數(shù)據(jù)樣例為:

{

“text”: “某班學(xué)生參加數(shù)學(xué)興趣小組,其中,參加的男生是全班人數(shù)的20%,參加的女生是全班人數(shù)的(2/7)多2人,不參加的人數(shù)比全班人數(shù)的(3/5)少5人,全班有多少人?”,

“segmented_text”: “某班 學(xué)生 參加 數(shù)學(xué) 興趣小組 , 其中 , 參加 的 男生 是 全班 人數(shù) 的 20% , 參加 的 女生 是 全班 人數(shù) 的 (2/7) 多 2 人 , 不 參加 的 人數(shù) 比 全班 人數(shù) 的 (3/5) 少 5 人 , 全班 有 多少 人 ?”,

“equation”: “x=(5-2)/(20%+(2/7)+(3/5)-1)”,

“l(fā)abel”: “35”

}

其中“text”和“equation”分別對(duì)應(yīng)了任務(wù)的問題和表達(dá)式信息。在嘗試過各種prompt后,最終確定的prompt設(shè)計(jì)如下。這種prompt設(shè)計(jì)將原本的問題拆分成了題干和待求解問題(“問:全班有多少人”)兩個(gè)部分,這是由于“問:”后面的內(nèi)容對(duì)表達(dá)式的生成十分關(guān)鍵。例如,“全班有多少人”和“全班女生有多少人”所對(duì)應(yīng)的表達(dá)式是完全不同的。

a755b596-60da-11ed-8abf-dac502259ad0.png{

某班學(xué)生參加數(shù)學(xué)興趣小組,其中,參加的男生是全班人數(shù)的20%,參加的女生是全班人數(shù)的(2/7)多2人,不參加的人數(shù)比全班人數(shù)的(3/5)少5人,問:全班有多少人?答: x=(5-2)/(20%+(2/7)+(3/5)-1)

}

|相似啟發(fā)式數(shù)據(jù)增強(qiáng)方法

Math23K數(shù)據(jù)集的題型雖然較為豐富,但題型分布并不均勻。例如,涉及圖形周長、面積和體積類的問題顯然比其他題目類型要少,為保證模型在各類數(shù)學(xué)題型上均有較好的表現(xiàn),有必要將該類型的題目擴(kuò)充。

本文采用了Ape210K數(shù)據(jù)集[6]對(duì)Math23K訓(xùn)練集進(jìn)行擴(kuò)充,Ape210K數(shù)據(jù)集是另一種較為常用的中文應(yīng)用數(shù)學(xué)題集,其題型更為豐富且題量更大(訓(xùn)練集約20萬道題)。然而,為保證模型在Math23K測(cè)試集上有良好的表現(xiàn),并不能簡(jiǎn)單地將Math23K和Ape210K數(shù)據(jù)集混合在一起。為保證數(shù)據(jù)增強(qiáng)的有效性,本文提出了一種相似啟發(fā)式數(shù)據(jù)增強(qiáng)方法(如圖2所示)。

該方法針對(duì)Math23K訓(xùn)練集中的每一道題,首先判斷是否屬于圖形周長、面積和體積類題目。若屬于,則top-K取值為2,同時(shí)通過相似題檢索從Ape210K中召回對(duì)應(yīng)的相似題;若不屬于,則top-K取值為1,同樣進(jìn)行相似題檢索。最后,將找到的相似題添加至Math23K訓(xùn)練集中,數(shù)據(jù)增強(qiáng)后的訓(xùn)練集約包含42000道題。

a7a3fd96-60da-11ed-8abf-dac502259ad0.jpg

圖2 相似啟發(fā)式數(shù)據(jù)增強(qiáng)方法

|Reset-position-id與reset-attention-mask設(shè)計(jì)

輸入到模型的一個(gè)batch中通常包含多道應(yīng)用題,且會(huì)出現(xiàn)截?cái)嗟葐栴}。為避免不同題目和表達(dá)式之間相互影響,對(duì)模型進(jìn)行reset-position-id和reset-attention-mask處理。圖3示意了reset前后的對(duì)比,采用了[eod]對(duì)不同題目之間做切割,在reset-pos-id之前,其位置編碼按照從左到右的順序排列;reset-pos-id之后,位置編碼按照單個(gè)題目進(jìn)行順序排列。類似的,在reset-attn-mask之前,掩碼矩陣對(duì)應(yīng)的是batch尺寸的下三角矩陣;reset-attn-mask后,原先的掩碼矩陣被拆分成若干小的掩碼矩陣,每個(gè)小掩碼矩陣對(duì)應(yīng)單個(gè)題目尺寸的下三角矩陣。

a7b98d8c-60da-11ed-8abf-dac502259ad0.jpg

圖3 reset-pos-id和reset-attn-mask前后對(duì)比(示意)

訓(xùn)練參數(shù)及結(jié)果

訓(xùn)練過程的主要參數(shù)設(shè)置如下。

a7cee916-60da-11ed-8abf-dac502259ad0.jpg

表1 模型訓(xùn)練部分參數(shù)

在訓(xùn)練了400個(gè)iteration后,模型的loss收斂至0.39(圖4)。

a7e2d764-60da-11ed-8abf-dac502259ad0.jpg

圖4 模型loss曲線

之后,在Math23K測(cè)試集上對(duì)所提方法的精度進(jìn)行了測(cè)試,并與現(xiàn)有相關(guān)方法的結(jié)果進(jìn)行對(duì)比(表2)。不難看出,與BERT、GPT-2以及CPM-2模型相比,所提方法下的“源1.0”大模型在Math23K任務(wù)上的精度最高。

a8035796-60da-11ed-8abf-dac502259ad0.jpg

表2 源1.0模型與BERT、GPT等在Math23K測(cè)試集上的對(duì)比

(相關(guān)結(jié)果見參考文獻(xiàn)[4])

總結(jié)與展望

為提升decoder結(jié)構(gòu)下的通用大模型在MWP任務(wù)上的精度,本文提出了一種目標(biāo)導(dǎo)向的問答式prompt設(shè)計(jì)方法,該方法有利于引導(dǎo)模型建立問題與表達(dá)式之間的準(zhǔn)確對(duì)應(yīng)關(guān)系;同時(shí)提出了一種相似啟發(fā)式數(shù)據(jù)增強(qiáng)方法,通過相似句召回的方式對(duì)數(shù)據(jù)集進(jìn)行擴(kuò)充,克服了原有數(shù)據(jù)集中題型分布不均勻的問題;此外,采用了重置位置編碼和掩碼矩陣的方法,解決了單個(gè)batch中的題目之間相互影響的問題。最后,在Math23K數(shù)據(jù)集上驗(yàn)證了所提方法,結(jié)果證明了“源1.0”模型有很強(qiáng)的數(shù)學(xué)推理能力。

審核編輯:郭婷

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 浪潮
    +關(guān)注

    關(guān)注

    1

    文章

    475

    瀏覽量

    24685
  • 數(shù)據(jù)集
    +關(guān)注

    關(guān)注

    4

    文章

    1224

    瀏覽量

    25444

原文標(biāo)題:浪潮“源”AI大模型如何求解數(shù)學(xué)應(yīng)用題

文章出處:【微信號(hào):浪潮AIHPC,微信公眾號(hào):浪潮AIHPC】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    Aux-Think打破視覺語言導(dǎo)航任務(wù)的常規(guī)推理范式

    視覺語言導(dǎo)航(VLN)任務(wù)的核心挑戰(zhàn),是讓機(jī)器人在復(fù)雜環(huán)境中聽懂指令、看懂世界,并果斷行動(dòng)。我們系統(tǒng)性地引入推理任務(wù),探索其在導(dǎo)航策略學(xué)習(xí)中的作用,并首次揭示了VLN中的“推理崩塌”現(xiàn)
    的頭像 發(fā)表于 07-08 10:00 ?112次閱讀
    Aux-Think打破視覺語言導(dǎo)航<b class='flag-5'>任務(wù)</b>的常規(guī)<b class='flag-5'>推理</b>范式

    通過什么方法能獲得關(guān)于Ethercat方面的設(shè)計(jì)方案和設(shè)計(jì)資料

    您好通過什么方法能獲得關(guān)于Ethercat方面的設(shè)計(jì)方案和設(shè)計(jì)資料,我們主要關(guān)于主站,從站IO和運(yùn)動(dòng)控制方面的資料,謝謝??!
    發(fā)表于 05-28 10:07

    解析SMA接口在電磁兼容性方面的卓越表現(xiàn)

    德索精密工業(yè)通過在材料選用、工藝處理以及結(jié)構(gòu)和內(nèi)導(dǎo)體設(shè)計(jì)等多方面的不懈努力,使得其生產(chǎn)的SMA接口在電磁兼容性方面表現(xiàn)卓越,在眾多對(duì)電磁環(huán)境要求嚴(yán)苛的領(lǐng)域中扮演著不可或缺的角色。
    的頭像 發(fā)表于 05-20 08:48 ?212次閱讀
    解析SMA接口在電磁兼容性<b class='flag-5'>方面的</b>卓越<b class='flag-5'>表現(xiàn)</b>

    解析 SMA 接口在電磁兼容性方面的卓越表現(xiàn)

    德索精密工業(yè)通過在材料選用、工藝處理以及結(jié)構(gòu)和內(nèi)導(dǎo)體設(shè)計(jì)等多方面的不懈努力,使得其生產(chǎn)的SMA接口在電磁兼容性方面表現(xiàn)卓越,在眾多對(duì)電磁環(huán)境要求嚴(yán)苛的領(lǐng)域中扮演著不可或缺的角色。
    的頭像 發(fā)表于 05-14 09:12 ?226次閱讀
    解析 SMA 接口在電磁兼容性<b class='flag-5'>方面的</b>卓越<b class='flag-5'>表現(xiàn)</b>

    使用MicroPython部署中的ocrrec_image.py推理得到的輸出結(jié)果很差,如何解決呢?

    使用在線平臺(tái)訓(xùn)練OCR識(shí)別任務(wù),測(cè)試結(jié)果表現(xiàn)很好。 期待結(jié)果和實(shí)際結(jié)果 實(shí)際的推理結(jié)果很差,推理不出任何信息。
    發(fā)表于 04-29 06:54

    芯啟提供DPU產(chǎn)品與解決方案

    芯啟創(chuàng)立于2015年8月,是國內(nèi)領(lǐng)先的網(wǎng)絡(luò)芯片及解決方案的供應(yīng)商。芯啟聚焦網(wǎng)絡(luò)通訊、5G、云數(shù)據(jù)中心領(lǐng)域,致力于“為超大規(guī)模電信級(jí)和企業(yè)級(jí)中心的智能安全網(wǎng)絡(luò)提供核心芯片和系統(tǒng)解決方案
    的頭像 發(fā)表于 04-10 14:18 ?692次閱讀
    芯啟<b class='flag-5'>源</b>提供DPU產(chǎn)品與<b class='flag-5'>解決方案</b>

    聊聊 全面的蜂窩物聯(lián)網(wǎng)解決方案

    。這種零散的解決方案所有權(quán)給產(chǎn)品開發(fā)人員帶來了各種挑戰(zhàn)和風(fēng)險(xiǎn),往往會(huì)導(dǎo)致次優(yōu)的實(shí)現(xiàn),需要在成本、性能和功耗方面做出許多權(quán)衡。 在 Nordic,我們的目標(biāo)是簡(jiǎn)化蜂窩產(chǎn)品開發(fā)并支持整個(gè)產(chǎn)品生命周期。這就
    發(fā)表于 03-17 11:39

    OpenAI O3與DeepSeek R1:推理模型性能深度分析

    ,OpenAI的O3在編碼任務(wù)方面超過了DeepSeek的R1,而R1在數(shù)學(xué)推理方面表現(xiàn)出了競(jìng)
    的頭像 發(fā)表于 02-18 11:07 ?945次閱讀

    了解DeepSeek-V3 和 DeepSeek-R1兩個(gè)大模型的不同定位和應(yīng)用選擇

    證明)或處理符號(hào)系統(tǒng)(如LaTeX公式)時(shí)表現(xiàn)更優(yōu)。 總結(jié)選擇建議 若需求以通用文本交互為主,優(yōu)先選 V3 (性價(jià)比更高); 若涉及復(fù)雜數(shù)學(xué)/符號(hào)推理或嚴(yán)格邏輯鏈任務(wù),選 R1 (專項(xiàng)
    發(fā)表于 02-14 02:08

    智譜推出深度推理模型GLM-Zero預(yù)覽版

    近日,智譜公司正式發(fā)布了其深度推理模型GLM-Zero的預(yù)覽版——GLM-Zero-Preview。這款模型標(biāo)志著智譜在擴(kuò)展強(qiáng)化學(xué)習(xí)技術(shù)訓(xùn)練推理模型方面的重大突破,成為其首個(gè)專注于增強(qiáng)AI推理
    的頭像 發(fā)表于 01-03 10:42 ?495次閱讀

    阿里云開源推理大模型QwQ

    推理能力,尤其在數(shù)學(xué)和編程方面表現(xiàn)突出。其整體推理水平已經(jīng)可以與OpenAI的o1模型相媲美,這充分展示了QwQ的強(qiáng)大實(shí)力和潛力。 QwQ(
    的頭像 發(fā)表于 11-29 11:30 ?1163次閱讀

    Kimi發(fā)布新一代數(shù)學(xué)推理模型k0-math

    近日,Kimi正式推出了其新一代數(shù)學(xué)推理模型k0-math。據(jù)基準(zhǔn)測(cè)試顯示,該模型的數(shù)學(xué)能力可與全球領(lǐng)先的OpenAI o1系列中的o1-mini和o1-preview模型相媲美。 在針對(duì)中考、高考
    的頭像 發(fā)表于 11-18 11:38 ?962次閱讀

    高效大模型的推理綜述

    大模型由于其在各種任務(wù)中的出色表現(xiàn)而引起了廣泛的關(guān)注。然而,大模型推理的大量計(jì)算和內(nèi)存需求對(duì)其在資源受限場(chǎng)景的部署提出了挑戰(zhàn)。業(yè)內(nèi)一直在努力開發(fā)旨在提高大模型推理效率的技術(shù)。本文對(duì)現(xiàn)有
    的頭像 發(fā)表于 11-15 11:45 ?1453次閱讀
    高效大模型的<b class='flag-5'>推理</b>綜述

    NVIDIA助力麗蟾科技打造AI訓(xùn)練與推理加速解決方案

    麗蟾科技通過 Leaper 資源管理平臺(tái)集成 NVIDIA AI Enterprise,為企業(yè)和科研機(jī)構(gòu)提供了一套高效、靈活的 AI 訓(xùn)練與推理加速解決方案。無論是在復(fù)雜的 AI 開發(fā)任務(wù)中,還是在高并發(fā)
    的頭像 發(fā)表于 10-27 10:03 ?817次閱讀
    NVIDIA助力麗蟾科技打造AI訓(xùn)練與<b class='flag-5'>推理</b>加速<b class='flag-5'>解決方案</b>

    阿里Qwen2-Math系列震撼發(fā)布,數(shù)學(xué)推理能力領(lǐng)跑全球

    阿里巴巴近期震撼發(fā)布了Qwen2-Math系列模型,這一系列模型基于其強(qiáng)大的Qwen2 LLM構(gòu)建,專為數(shù)學(xué)解題而生,展現(xiàn)了前所未有的數(shù)學(xué)推理能力。Qwen2-Math家族包括1.5B、7B及72B三種規(guī)模,旨在滿足不同場(chǎng)景下的
    的頭像 發(fā)表于 08-12 15:19 ?1185次閱讀