呦系列视频一区二区三区软件,av资源吧在线加勒比一二三区

作者：算力魔方創(chuàng)始人/英特爾創(chuàng)新大使劉力

之前我們分享了《從零開始訓(xùn)練一個(gè)大語言模型需要投資多少錢》，其中高昂的預(yù)訓(xùn)練費(fèi)用讓許多對大模型預(yù)訓(xùn)練技術(shù)感興趣的朋友望而卻步。

應(yīng)廣大讀者的需求，本文將手把手教您如何在單張消費(fèi)級顯卡上，利用PaddleNLP實(shí)踐OpenAI的GPT-2模型的預(yù)訓(xùn)練。GPT-2的預(yù)訓(xùn)練關(guān)鍵技術(shù)與流程與GPT-4等大參數(shù)模型如出一轍，通過親手實(shí)踐GPT-2的預(yù)訓(xùn)練過程，您就能對GPT-4的預(yù)訓(xùn)練技術(shù)有更深入的了解。

視頻鏈接如下：

[零基礎(chǔ)]：用PaddleNLP在4060單卡上實(shí)踐大模型預(yù)訓(xùn)練技術(shù) (qq.com)

一，GPT-2模型簡介

GPT-2（Generative Pre-trained Transformer 2）是由OpenAI在2019年發(fā)布的第二代生成式預(yù)訓(xùn)練語言模型，通過無監(jiān)督學(xué)習(xí)的方式進(jìn)行預(yù)訓(xùn)練，能夠在多個(gè)自然語言處理任務(wù)上取得顯著的效果，如文本生成、閱讀理解、機(jī)器翻譯等。

GPT-2 奠定的技術(shù)基礎(chǔ)為 GPT-3、GPT-4 的發(fā)展提供了方向，后續(xù)版本在此基礎(chǔ)上不斷改進(jìn)和創(chuàng)新。

GPT-2有4個(gè)參數(shù)版本：124M、355M、774M和1.5B。為方便大家使用單卡實(shí)踐預(yù)訓(xùn)練技術(shù)，本文選用124M版本。

二，PaddleNLP簡介

PaddleNLP是一款基于飛槳的開源大語言模型(LLM)開發(fā)套件，支持在多種硬件上進(jìn)行高效的大模型訓(xùn)練、無損壓縮以及高性能推理。PaddleNLP具備簡單易用和性能極致的特點(diǎn)，致力于助力開發(fā)者實(shí)現(xiàn)高效的大模型產(chǎn)業(yè)級應(yīng)用。

代碼倉：https://github.com/PaddlePaddle/PaddleNLP

三，預(yù)訓(xùn)練環(huán)境準(zhǔn)備

本文的軟硬件環(huán)境如下：

操作系統(tǒng)：Ubuntu 24.04 LTS

CPU: Intel? Core? i5-10210U

GPU：NVIDIA RTX-4060

代碼編輯器：VS Code

Python虛擬環(huán)境管理器：Anaconda

大語言模型訓(xùn)練工具：PaddleNLP

大語言模型：GPT-2

在Ubuntu 24.04上安裝RTX-4060驅(qū)動(dòng)和Anaconda請參見這里；若您習(xí)慣在Windows上從事日常工作，請先配置《在Windows用遠(yuǎn)程桌面訪問Ubuntu 24.04.1 LTS》。

四，安裝PaddleNLP

首先，請用Anaconda創(chuàng)建虛擬環(huán)境“gpt2”：

# 創(chuàng)建名為my_paddlenlp的環(huán)境，指定Python版本為3.9或3.10
conda create -n gpt2 python=3.10
# 激活環(huán)境
conda activate gpt2

然后，克隆PaddleNLP代碼倉到本地，切換到“develop”分支后安裝PaddleNLP。

# 克隆PaddleNLP代碼倉到本地
git clone https://github.com/PaddlePaddle/PaddleNLP.git
cd PaddleNLP
# 切換到”develop”分支
git checkout develop
# 安裝飛槳框架
pip install paddlepaddle-gpu
# 安裝PaddleNLP
pip setup.py install

輸入命令：“paddlenlp --help”，出現(xiàn)下圖，說明PaddleNLP安裝成功！

五，下載預(yù)訓(xùn)練數(shù)據(jù)集

為了方便讀者運(yùn)行快速體驗(yàn)預(yù)訓(xùn)練過程，PaddleNLP提供了處理好的100K條openweb數(shù)據(jù)集的訓(xùn)練樣本。該訓(xùn)練數(shù)據(jù)集雖然不夠預(yù)訓(xùn)練的數(shù)據(jù)量要求(模型參數(shù)量的十倍以上)，但足夠讓讀者觀察到啟動(dòng)預(yù)訓(xùn)練后，隨機(jī)初始化權(quán)重的GPT-2模型的Loss值從11.x左右下降到5.x左右。

用命令將100K條openweb數(shù)據(jù)集的訓(xùn)練樣本下載到PaddleNLP/llm/data文件夾：???????

cd PaddleNLP/llm
mkdir data
wget https://bj.bcebos.com/paddlenlp/models/transformers/gpt/data/gpt2_openwebtext_100k.bin
wget https://bj.bcebos.com/paddlenlp/models/transformers/gpt/data/gpt2_openwebtext_100k.idx
mv gpt2_openwebtext_100k.bin ./data
mv gpt2_openwebtext_100k.idx ./data

六，下載GPT-2模型和分詞器到本地

在/llm路徑下，輸入命令下載GPT-2模型和分詞器到本地：

paddlenlp download --cache-dir ./pretrained_models gpt2

然后，打開llm/config/gpt3/pretrain_argument.json文件，按照下圖修改：

"model_name_or_path": "./pretrained_models/gpt2"

"tokenizer_name_or_path": "./pretrained_models/gpt2"

七，啟動(dòng)GPT-2模型的預(yù)訓(xùn)練

在/llm路徑下，輸入命令：???????

python -u -m paddle.distributed.launch --gpus "0" run_pretrain.py 
                                       ./config/gpt-3/pretrain_argument.json 
                                      --use_flash_attention False 
                                      --continue_training 0

訓(xùn)練結(jié)果如下圖所示：

八，總結(jié)

使用PaddleNLP，可以在單張4060顯卡上實(shí)踐OpenAI的GPT-2模型的預(yù)訓(xùn)練，讓自己對GPT-4的預(yù)訓(xùn)練技術(shù)有更深入的了解！

更多大模型訓(xùn)練技術(shù)，

請參看：https://paddlenlp.readthedocs.io/

如果你有更好的文章，歡迎投稿！

稿件接收郵箱：nami.liu@pasuntech.com

更多精彩內(nèi)容請關(guān)注“算力魔方?”！

審核編輯黃宇

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報(bào)投訴

數(shù)據(jù)集

數(shù)據(jù)集

+關(guān)注

關(guān)注
4

文章
1224

瀏覽量
25447
大模型

大模型

+關(guān)注

關(guān)注
2

文章
3146

瀏覽量
4071
LLM

LLM

+關(guān)注

關(guān)注
1

文章
325

瀏覽量
841

一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

搜索歷史

用PaddleNLP在4060單卡上實(shí)踐大模型預(yù)訓(xùn)練技術(shù)

評論