一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

源2.0-M32大模型發(fā)布量化版 運(yùn)行顯存僅需23GB 性能可媲美LLaMA3

全球TMT ? 來源:全球TMT ? 作者:全球TMT ? 2024-08-25 22:06 ? 次閱讀

北京2024年8月23日/美通社/ -- 近日,浪潮信息發(fā)布源2.0-M32大模型4bit和8bit量化版,性能比肩700億參數(shù)的LLaMA3開源大模型。4bit量化版推理運(yùn)行顯存僅需23.27GB,處理每token所需算力約為1.9 GFLOPs,算力消耗僅為同等當(dāng)量大模型LLaMA3-70B的1/80。而LLaMA3-70B運(yùn)行顯存為160GB,所需算力為140GFLOPs。

源2.0-M32量化版是"源"大模型團(tuán)隊(duì)為進(jìn)一步提高模算效率,降低大模型部署運(yùn)行的計(jì)算資源要求而推出的版本,通過采用領(lǐng)先的量化技術(shù),將原模型精度量化至int4和int8級別,并保持模型性能基本不變。源2.0-M32量化版提高了模型部署加載速度和多線程推理效率,在不同硬件和軟件環(huán)境中均能高效運(yùn)行,降低了模型移植和部署門檻,讓用戶使用更少的計(jì)算資源,就能獲取源2.0-M32大模型的強(qiáng)大能力。

源2.0-M32大模型是浪潮信息"源2.0"系列大模型的最新版本,其創(chuàng)新性地提出和采用了"基于注意力機(jī)制的門控網(wǎng)絡(luò)"技術(shù),構(gòu)建包含32個(gè)專家(Expert)的混合專家模型(MoE),模型運(yùn)行時(shí)激活參數(shù)為37億,在業(yè)界主流基準(zhǔn)評測中性能全面對標(biāo)700億參數(shù)的LLaMA3開源大模型,大幅提升了模型算力效率。

模型量化(Model Quantization)是優(yōu)化大模型推理的一種主流技術(shù),它顯著減少了模型的內(nèi)存占用和計(jì)算資源消耗,從而加速推理過程。然而,模型量化可能會影響模型的性能。如何在壓縮模型的同時(shí)維持其精度,是量化技術(shù)面臨的核心挑戰(zhàn)。

源2.0-M32大模型研發(fā)團(tuán)隊(duì)深入分析當(dāng)前主流的量化方案,綜合評估模型壓縮效果和精度損失表現(xiàn),最終采用了GPTQ量化方法,并采用AutoGPTQ作為量化框架。為了確保模型精度最大化,一方面定制化適配了適合源2.0-M32結(jié)構(gòu)的算子,提高了模型的部署加載速度和多線程推理效率,實(shí)現(xiàn)高并發(fā)推理;另一方面對需要量化的中間層(inter_layers)進(jìn)行了嚴(yán)格評估和篩選,確定了最佳的量化層。從而成功將模型精度量化至int4和int8級別,在模型精度幾乎無損的前提下,提升模型壓縮效果、增加推理吞吐量和降低計(jì)算成本,使其更易于部署到移動設(shè)備和邊緣設(shè)備上。

評測結(jié)果顯示,源2.0-M32量化版在多個(gè)業(yè)界主流的評測任務(wù)中性能表現(xiàn)突出,特別是在MATH(數(shù)學(xué)競賽)、ARC-C(科學(xué)推理)任務(wù)中,比肩擁有700億參數(shù)的LLaMA3大模型。

wKgaombLOmGAMfOeAACBJMP6AFU808.jpg


總之,源2.0-M32大模型量化版在保持推理性能的前提下,顯著降低了計(jì)算資源消耗和內(nèi)存占用,其采用的GPTQ量化方法通過精細(xì)調(diào)整,成功將模型適配至int4和int8精度級別。通過定制化算子優(yōu)化,源2.0-M32量化版實(shí)現(xiàn)了模型結(jié)構(gòu)的深度適配和性能的顯著提升,確保在不同硬件和軟件環(huán)境中均能高效運(yùn)行。未來,隨著量化技術(shù)的進(jìn)一步優(yōu)化和應(yīng)用場景的拓展,源2.0-M32量化版有望在移動設(shè)備和邊緣計(jì)算等領(lǐng)域發(fā)揮更廣泛的作用,為用戶提供更高效的智能服務(wù)。

源2.0-M32量化版已開源,下載鏈接如下:

Hugging Face平臺下載鏈接:

https://huggingface.co/IEITYuan/Yuan2-M32-gguf-int4
https://huggingface.co/IEITYuan/Yuan2-M32-hf-int4
https://huggingface.co/IEITYuan/Yuan2-M32-hf-int8

modelscope平臺下載鏈接:

https://modelscope.cn/models/IEITYuan/Yuan2-M32-gguf-int4
https://modelscope.cn/models/IEITYuan/Yuan2-M32-HF-INT4
https://modelscope.cn/models/IEITYuan/Yuan2-M32-hf-int8


審核編輯 黃宇

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • 開源
    +關(guān)注

    關(guān)注

    3

    文章

    3533

    瀏覽量

    43292
  • 算力
    +關(guān)注

    關(guān)注

    1

    文章

    1103

    瀏覽量

    15354
  • 大模型
    +關(guān)注

    關(guān)注

    2

    文章

    2941

    瀏覽量

    3683
收藏 人收藏

    評論

    相關(guān)推薦

    Meta發(fā)布Llama 3.2量化模型

    近日,Meta在開源Llama 3.2的1B與3B模型后,再次為人工智能領(lǐng)域帶來了新進(jìn)展。10月24日,Meta正式推出了這兩個(gè)模型量化
    的頭像 發(fā)表于 10-29 11:05 ?702次閱讀

    Llama 3 與開源AI模型的關(guān)系

    在人工智能(AI)的快速發(fā)展中,開源AI模型扮演著越來越重要的角色。它們不僅推動了技術(shù)的創(chuàng)新,還促進(jìn)了全球開發(fā)者社區(qū)的合作。Llama 3,作為一個(gè)新興的AI項(xiàng)目,與開源AI模型的關(guān)系
    的頭像 發(fā)表于 10-27 14:42 ?621次閱讀

    Llama 3 模型與其他AI工具對比

    Llama 3模型與其他AI工具的對比可以從多個(gè)維度進(jìn)行,包括但不限于技術(shù)架構(gòu)、性能表現(xiàn)、應(yīng)用場景、定制化能力、開源與成本等方面。以下是對Llama
    的頭像 發(fā)表于 10-27 14:37 ?854次閱讀

    Llama 3 語言模型應(yīng)用

    在人工智能領(lǐng)域,語言模型的發(fā)展一直是研究的熱點(diǎn)。隨著技術(shù)的不斷進(jìn)步,我們見證了從簡單的關(guān)鍵詞匹配到復(fù)雜的上下文理解的轉(zhuǎn)變。 一、Llama 3 語言模型的核心功能 上下文理解 :
    的頭像 發(fā)表于 10-27 14:15 ?601次閱讀

    使用OpenVINO 2024.4在算力魔方上部署Llama-3.2-1B-Instruct模型

    前面我們分享了《三步完成Llama3在算力魔方的本地量化和部署》。2024年9月25日,Meta又發(fā)布Llama3.2:一個(gè)多語言大型語言模型
    的頭像 發(fā)表于 10-12 09:39 ?1207次閱讀
    使用OpenVINO 2024.4在算力魔方上部署<b class='flag-5'>Llama</b>-3.2-1B-Instruct<b class='flag-5'>模型</b>

    AMD發(fā)布首款小語言AI模型Llama-135m

    近日,AMD在Huggingface平臺上正式推出了自家首款“小語言模型”——AMD-Llama-135m。這款模型以其獨(dú)特的推測解碼功能,吸引了業(yè)界的廣泛關(guān)注。
    的頭像 發(fā)表于 09-30 16:38 ?1562次閱讀

    Meta即將發(fā)布超強(qiáng)開源AI模型Llama 3-405B

    在人工智能領(lǐng)域的激烈競爭中,Meta公司再次擲出重磅炸彈,宣布將于7月23日正式發(fā)布其最新力作——Llama 3-405B,一個(gè)擁有驚人4050億參數(shù)的開源大
    的頭像 發(fā)表于 07-18 09:58 ?1206次閱讀

    【算能RADXA微服務(wù)器試用體驗(yàn)】+ GPT語音與視覺交互:1,LLM部署

    /LLM-TPU.git 然后進(jìn)入LLAMA3對應(yīng)的文件夾中,創(chuàng)建虛擬環(huán)境并激活: cd LLM-TPU/models/Llama3 python3 -m venv python_v
    發(fā)表于 06-25 15:02

    【AIBOX上手指南】快速部署Llama3

    Firefly開源團(tuán)隊(duì)推出了Llama3部署包,提供簡易且完善的部署教程,過程無需聯(lián)網(wǎng),簡單快捷完成本地化部署。點(diǎn)擊觀看Llama3快速部署教程:Step.1準(zhǔn)備部署包進(jìn)入Firefly下載中心
    的頭像 發(fā)表于 06-06 08:02 ?1053次閱讀
    【AIBOX上手指南】快速部署<b class='flag-5'>Llama3</b>

    浪潮信息重磅發(fā)布2.0-M32”開源大模型

    浪潮信息近日發(fā)布了一款全新的開源大模型——“2.0-M32”。這款大模型在“
    的頭像 發(fā)表于 06-05 14:50 ?951次閱讀

    浪潮信息發(fā)布2.0-M32開源大模型,模算效率大幅提升

    5月28日,浪潮信息發(fā)布2.0-M32”開源大模型?!?b class='flag-5'>源2.0-M32”在基于”
    的頭像 發(fā)表于 05-29 09:34 ?647次閱讀
    浪潮信息<b class='flag-5'>發(fā)布</b><b class='flag-5'>源</b><b class='flag-5'>2.0-M32</b>開源大<b class='flag-5'>模型</b>,模算效率大幅提升

    浪潮信息發(fā)布2.0-M32”開源大模型

    浪潮信息近日推出了革命性的“2.0-M32”開源大模型。該模型2.0系列基礎(chǔ)上,引入了“基
    的頭像 發(fā)表于 05-29 09:08 ?838次閱讀

    Optimum Intel三步完成Llama3在算力魔方的本地量化和部署

    Llama3 是Meta最新發(fā)布的開源大語言模型(LLM), 當(dāng)前已開源8B和70B參數(shù)量的預(yù)訓(xùn)練模型權(quán)重,并支持指令微調(diào)。
    的頭像 發(fā)表于 05-10 10:34 ?1400次閱讀
    Optimum Intel三步完成<b class='flag-5'>Llama3</b>在算力魔方的本地<b class='flag-5'>量化</b>和部署

    Meta Llama 3基礎(chǔ)模型現(xiàn)已在亞馬遜云科技正式可用

    亞馬遜云科技近日宣布,Meta公司最新發(fā)布的兩款Llama 3基礎(chǔ)模型——Llama 3 8B和
    的頭像 發(fā)表于 05-09 10:39 ?549次閱讀

    高通支持Meta Llama 3在驍龍終端上運(yùn)行

    高通與Meta攜手合作,共同推動Meta的Llama 3大語言模型(LLM)在驍龍驅(qū)動的各類終端設(shè)備上實(shí)現(xiàn)高效運(yùn)行。此次合作致力于優(yōu)化Llama
    的頭像 發(fā)表于 05-09 10:37 ?579次閱讀