大語(yǔ)言模型Fine-tuning踩坑經(jīng)驗(yàn)分享

作者 |?FelixCoder

前言

由于 ChatGPT 和 GPT4 興起，如何讓人人都用上這種大模型，是目前 AI 領(lǐng)域最活躍的事情。當(dāng)下開源的??LLM（Large language model）非常多，可謂是百模大戰(zhàn)。面對(duì)諸多開源本地模型，根據(jù)自己的需求，選擇適合自己的基座模型和參數(shù)量很重要。選擇完后需要對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行預(yù)處理，往往這一步就難住很多同學(xué)，無從下手，更別說 training。

然后再對(duì)模型進(jìn)行 finetuning 來更好滿足自己的下游任務(wù)。那么對(duì)于如果要訓(xùn)練一個(gè)專家模型。預(yù)訓(xùn)練也是必不可缺的工作。不管是預(yù)訓(xùn)練還是??finetuning（微調(diào)），無論選用何種方案，都避免不了訓(xùn)練中產(chǎn)生的災(zāi)難性遺忘問題，那么怎么減少和避免這種情況的發(fā)生，也是本文想講的一個(gè)重點(diǎn)。對(duì)于推理，在 GPU 資源不富裕的情況，如何最小化的利用內(nèi)存，提升推理效率，也是可以討論的內(nèi)容。

模型選擇

先看一下最好的模型有哪些，以下數(shù)據(jù)是最新 LLM 排行，來自?UC 伯克利?[1]

▲ FireShot Capture 015 - Chatbot Arena Leaderboard Week 8_ Introducing MT-Bench and Vicuna-33B_ - lmsys.org.png

當(dāng)然這里前 3 名都閉源模型，后面開源模型，大多數(shù)也都是英文的模型。如果 GPU 資源充足（至少 A100*8），這里也可以基于開源模型做中文的預(yù)訓(xùn)練，最后再 finetuning 。但我們沒有 GPU 資源，我們可以選擇開源的中文模型直接做微調(diào)。?

具體有哪些中文模型可以選擇，可以參考這兩個(gè)地址?中文語(yǔ)言理解測(cè)評(píng)基準(zhǔn)（CLUE）[2] 和?SuperCLUE 瑯琊榜?[3]。開源領(lǐng)域 ChatGLM，LLAMA，RWKV 主要就是這 3 種模型，中文好一點(diǎn)就是 ChatGLM，潛力最好的就是 LLAMA，RNN 架構(gòu)決定 RWKV 有很好的推理效率（隨輸入長(zhǎng)度內(nèi)存占比線性自增，而 LLAMA 則是指數(shù)增加）和? Length Extrapolation?（關(guān)于長(zhǎng)度外推性，可以參考蘇神的文章?[4]）。

當(dāng)然?MPT-7B-StoryWriter-65k+?[5] 模型也有較長(zhǎng)的外推能力，主要在于，注意力這塊使用了?ALIBI?[6]。要擁有什么樣的長(zhǎng)度，取決你的需求。對(duì)于對(duì)話模型，往往不需要那么長(zhǎng)的外推能力。但對(duì)于想做知識(shí)庫(kù)領(lǐng)域相關(guān)的應(yīng)用，需要模型能夠看更多的內(nèi)容，是有這個(gè)需求的。

這里不做推薦，一切來自你的具體需求和 GPU 資源，不知道怎么樣選擇，可以將您的需求和資源情況留言，我給你做一個(gè)選擇。

模型大小選擇

當(dāng)然對(duì)于模型參數(shù)的選擇，往往是參數(shù)越大效果越好。如果資源充足，當(dāng)然是推薦 30B 以上的模型。不管是 6B, 7B 和 13B 同樣的訓(xùn)練數(shù)據(jù)，同樣訓(xùn)練參數(shù)，模型參數(shù)量大效果則優(yōu)于低參數(shù)的模型。那么根據(jù)模型參數(shù)，如何預(yù)估我們的訓(xùn)練所需的內(nèi)存開銷，這里有一個(gè)簡(jiǎn)單的方法比如 6B 模型，60 億規(guī)模參數(shù)，根據(jù)以下公式計(jì)算：?

模型參數(shù) + 梯度參數(shù) + 優(yōu)化器參數(shù) = 6B * 1bytes + 6GB + 2*6GB = 24GB?

以上是全量預(yù)訓(xùn)練，當(dāng)然如果采用 lora 這種方法，則會(huì)有更低內(nèi)存占用。當(dāng)然我們還可以對(duì)模型進(jìn)行量化，來提高內(nèi)存效率。?

注意：參數(shù)多量化低的模型要優(yōu)于參數(shù)低量化高的模型，舉例：33B-fb4 模型要優(yōu)于 13b-fb16 模型.

數(shù)據(jù)處理

對(duì)于 LLM 訓(xùn)練，數(shù)據(jù)質(zhì)量很重要。預(yù)訓(xùn)練時(shí)，我們可以將數(shù)據(jù)先進(jìn)行預(yù)處理，比如對(duì)數(shù)據(jù)進(jìn)行一定規(guī)則的篩選，數(shù)據(jù)去重，去除一些低質(zhì)量的數(shù)據(jù)。同時(shí)，我們可能面臨各種類型的數(shù)據(jù)，PDF，Word，HTML，代碼文件等等，對(duì)于這種不同類型的數(shù)據(jù)我們需要都處理成文本，同時(shí)還過濾掉一些干擾項(xiàng)或亂碼的數(shù)據(jù)。

當(dāng)然，我們也可以利用一些工具去處理，比如 justext?[7]，trafilatura?[8]，來提取文檔主要內(nèi)容，減少數(shù)據(jù)的噪音。對(duì)于空的文檔或文檔長(zhǎng)度低于 100 進(jìn)行過濾，進(jìn)一步減少噪音。

對(duì)于一些機(jī)器生成的文本或 OCR?識(shí)別錯(cuò)誤的文本，質(zhì)量不高，由沒有什么邏輯性，雖然比較難以檢測(cè)，但是還是會(huì)有一些工具能做這樣的事情，比如?ctrl-detector?[9]。當(dāng)然對(duì)于一些有毒的或帶有偏見的數(shù)據(jù)，可以采用?PerspectiveAPI?[10] 或垃圾郵件檢測(cè)的辦法來過濾。

我們還不得不考慮數(shù)據(jù)的一些隱私風(fēng)險(xiǎn)，也需要考慮，比如身份證號(hào)，銀行卡等信息，比如 presidio 和 pii-codex 等工具提供了檢測(cè)、分析和處理文本數(shù)據(jù)中的個(gè)人身份信息的能力。

指令微調(diào)數(shù)據(jù)，我們可以使用?PromptSource?[11] 來創(chuàng)建微調(diào)數(shù)據(jù)。當(dāng)然我們還可以讓 GPT4 給我們標(biāo)注一些數(shù)據(jù)，這樣蒸餾知識(shí)，可以讓數(shù)據(jù)質(zhì)量進(jìn)一步提升。這里我分享一個(gè)我使用的 Prompt 工程：

first_prompt?=?"""
作為一位專業(yè)的xxxx，您的任務(wù)是從給定的上下文回答問題。
給定的上下文：
"""
last_prompt?=?"""
請(qǐng)綜合上述信息，你給出的回復(fù)需要包含以下三個(gè)字段：
1.questions:?基于上下文內(nèi)容，提出與這個(gè)內(nèi)容相關(guān)的問題，至少兩個(gè)以上。
2.answers:?然后根據(jù)問題，分別給出每個(gè)問題的答案，請(qǐng)用 markdown 格式。
3.instruction:?給出上下文內(nèi)容的總結(jié)，盡量精簡(jiǎn)，用 markdown 格式。
請(qǐng)按照以下JSON格式來回答：
前括號(hào)
??????"questions":?[
??????????"<內(nèi)容相關(guān)問題1>",
??????????"<內(nèi)容相關(guān)問題2>"
??????],
??????"answers":?[
???????????"<內(nèi)容相關(guān)問題1的答案>",
???????????"<內(nèi)容相關(guān)問題2的答案>"
??????],
??????instruction:?"<總結(jié)性的內(nèi)容>"
后括號(hào)
注意：如果碰到上下文內(nèi)容信息不夠，無法回答問題的情況，answers和questions可以返回空。
最后強(qiáng)調(diào)一下：你的回復(fù)將直接用于javascript的JSON.parse解析，所以注意一定要以標(biāo)準(zhǔn)的JSON格式做回答，不要包含任何其他非JSON內(nèi)容，否則你將被扣分?。。?"""

微調(diào)方案

目前對(duì)于 LLM 微調(diào)方案有很多，我將常用的一些方案和相關(guān)資料做一個(gè)列舉。?

Prefix-Tuning（P-Tuning v2）[12]

Prompt Tuning?[13]

Lora?/?QLora [14]

根據(jù)實(shí)際經(jīng)驗(yàn)，這里推薦采用 Lora 或 QLora。簡(jiǎn)單介紹一下 QLoRA，重點(diǎn)改進(jìn)是將模型采用 4bit 量化后加載，訓(xùn)練時(shí)把數(shù)值反量化到 bf16 后進(jìn)行訓(xùn)練，利用 LoRA 可以鎖定原模型參數(shù)不參與訓(xùn)練，只訓(xùn)練少量 LoRA 參數(shù)的特性使得訓(xùn)練所需的顯存大大減少。例如 33B 的 LLaMA 模型經(jīng)過這種方式可以在 24GB 的顯卡上訓(xùn)練，也就是說消費(fèi)級(jí)單卡都可以實(shí)現(xiàn)，大大降低了微調(diào)的門檻。

英文模型需要做詞表擴(kuò)充嗎？

對(duì)于像 LLaMA 模型的詞表大小是 32K，其主要針對(duì)英語(yǔ)進(jìn)行訓(xùn)練（具體詳見?LLaMA 論文 [15]），對(duì)多語(yǔ)種支持不是特別理想（可以對(duì)比一下多語(yǔ)言經(jīng)典模型 XLM-R 的詞表大小為 250K）。

通過初步統(tǒng)計(jì)發(fā)現(xiàn)，LLaMA 詞表中僅包含很少的中文字符，所以在切詞時(shí)會(huì)把中文切地更碎，需要多個(gè) byte token 才能拼成一個(gè)完整的漢字，進(jìn)而導(dǎo)致信息密度降低。比如，在擴(kuò)展詞表后的模型中，單個(gè)漢字傾向于被切成 1 個(gè) token，而在 LLaMA 中可能就需要 2-3 個(gè)才能組合成一個(gè)漢字，顯著降低模型的推理效率。

如何避免災(zāi)難遺忘

通常我們有以下方式，可以減少或避免災(zāi)難性遺忘問題

將重要的權(quán)重凍結(jié) - 像 Lora 就是采用的這種方案，只學(xué)習(xí)部分網(wǎng)絡(luò)權(quán)重。但這里 Lora 的配置其實(shí)是要注意一下，如果你是用 Lora 做預(yù)訓(xùn)練，lora 訓(xùn)練模塊可以配上 q_proj,v_proj,k_proj,o_proj??如果是微調(diào)則只需要訓(xùn)練? q_proj,v_proj? lora_rank 的設(shè)置也有講究，初始設(shè) lora_ran 為 8，訓(xùn)練存在遺忘時(shí)，可以將 lora_rank 改為 64（原因是與原模型數(shù)據(jù)領(lǐng)域相差較大的話，需要更大的秩，原論文有說明）。

復(fù)習(xí) - 跟人一樣，在預(yù)訓(xùn)練或微調(diào)時(shí)，回看之前訓(xùn)練的數(shù)據(jù)。還可以專門把特征圖存起來，量化以后放在一個(gè)類似于記憶庫(kù)的地方，之后在新任務(wù)上訓(xùn)練的時(shí)候從這個(gè)記憶庫(kù)里重構(gòu)出記憶和新數(shù)據(jù)一起訓(xùn)練。感興趣可以看這篇論文?[16]。?

MoE - 稀疏門控制的專家混合層，最近爆出 GPT4 是由 8 個(gè) 220B 的模型組合。關(guān)于?Moe 相關(guān)資料?[17]?大家自行了解。?

推理加速

對(duì)于推理，一般我們采用量化方案，這里有兩個(gè)辦法。第一個(gè)則是采用 ggml 工具，比如?llama.cpp?[18] 針對(duì) llama 模型，將模型量化運(yùn)行在 cpu 或 gpu 上，也可以 cpu 和 gpu 一起跑，內(nèi)存則大大減少，推理速度有極大的提高。?

▲ image.png

這里如果將 llama.cpp 運(yùn)行在 gpu 上，編譯時(shí)一定要加?LLAMA_CUBLAS=1，同時(shí)推理的時(shí)候，指定? --gpu-layers|-ngl? 來分配運(yùn)行在 gpu 上的層數(shù)，當(dāng)然越大，占用 gpu 的內(nèi)存會(huì)越多。

如果是 RWKV 模型，則考慮采用?rwkv.cpp?[19]，此方法與?llama.cpp?類似，使用方式也是類似的。

還有 Llama 模型還可以考慮使用?exllama?[20] 純 GPU 的加速，雖然還不夠完善，但也可以值得一試。

另一個(gè)，采用?LLM Accelerator?[21]，LLM 存在大量的相似性推理，基于此，可以做一些優(yōu)化加速推理，具體請(qǐng)看論文。最后采用架構(gòu)上的調(diào)整，faster transformer?[22] 要優(yōu)于傳統(tǒng)的 transformer 架構(gòu)。

總結(jié)

最后總結(jié)幾條原則：?

參數(shù)多量化低的模型要優(yōu)于參數(shù)低量化高的模型?

模型質(zhì)量與訓(xùn)練數(shù)據(jù)質(zhì)量是存在相關(guān)性的?

擴(kuò)充中文詞表有助于提高推理效率?

微調(diào)推薦采用 Lora QLora 方案?

模型加速必然需要對(duì)模型進(jìn)行量化

編輯：黃飛

閱讀全文

gpu(126255) gpu(126255)
數(shù)據(jù)處理(28213) 數(shù)據(jù)處理(28213)
ChatGPT(3870) ChatGPT(3870)
LLM(229) LLM(229)

評(píng)論

相關(guān)推薦

嵌入式C語(yǔ)言代碼優(yōu)化的經(jīng)驗(yàn)與方法

在本篇文章中，收集了很多經(jīng)驗(yàn)和方法。應(yīng)用這些經(jīng)驗(yàn)和方法，可以幫助我們從執(zhí)行速度和內(nèi)存使用等方面來優(yōu)化C語(yǔ)言代碼。

2023-02-02 09:17:22

215

如何利用Transformers了解視覺語(yǔ)言模型

將模型稱為 “視覺語(yǔ)言” 模型是什么意思？一個(gè)結(jié)合了視覺和語(yǔ)言模態(tài)的模型？但這到底是什么意思呢？

2023-03-03 09:49:37

665

嵌入式C語(yǔ)言代碼優(yōu)化的經(jīng)驗(yàn)與方法

2023-03-08 13:27:00

142

2023年科技圈熱詞“大語(yǔ)言模型”，與自然語(yǔ)言處理有何關(guān)系

電子發(fā)燒友網(wǎng)報(bào)道（文/李彎彎）大語(yǔ)言模型（LLM）是基于海量文本數(shù)據(jù)訓(xùn)練的深度學(xué)習(xí)模型。它不僅能夠生成自然語(yǔ)言文本，還能夠深入理解文本含義，處理各種自然語(yǔ)言任務(wù)，如文本摘要、問答、翻譯

2024-01-02 09:28:33

1267

Arduino-IDE配置ESP32開發(fā)環(huán)境的正確方式

Arduino-IDE配置ESP32-CAM開發(fā)環(huán)境踩過的那些坑Arduino-IDE配置ESP32開發(fā)環(huán)境踩過的那些坑坑一IDE下載開發(fā)版速度慢：坑二get速度慢：坑三編譯出錯(cuò)：坑N上傳出錯(cuò)：坑一

2022-01-25 07:40:31

C語(yǔ)言中幾個(gè)容易踩的“坑”！

C語(yǔ)言中幾個(gè)容易踩的“坑”！今天給大家分享幾個(gè)C語(yǔ)言中的坑。一、帶參數(shù)的宏展開順序#include #define f(a,b) a##b#define g(a) #a#define h(a

2020-05-06 17:42:45

C語(yǔ)言中的坑有哪些？

總結(jié)幾個(gè)C語(yǔ)言中的“坑”

2020-12-28 06:11:15

C語(yǔ)言編程的學(xué)習(xí)經(jīng)驗(yàn)和心得體會(huì)概括

C語(yǔ)言編程的學(xué)習(xí)經(jīng)驗(yàn)和心得體會(huì)有哪些？

2021-11-03 06:03:51

Hi3516開箱貼及踩坑點(diǎn)

` 本帖最后由 PCB00023915 于 2020-11-3 12:25 編輯開箱：排好隊(duì)：裝好上電，還好沒冒煙：踩坑點(diǎn)：1.攝像頭的焦距沒有固定，如果發(fā)現(xiàn)攝像頭顏色偏紅可以擰動(dòng)鏡頭

2020-11-03 11:54:28

Linux學(xué)習(xí)過程踩過的坑與如何解決踩坑

Linux踩坑記錄記錄Linux學(xué)習(xí)過程踩過的坑與如何解決踩坑1解決方法:F10進(jìn)入BIOS使能虛擬化技術(shù)

2021-11-04 08:44:19

NodeMCU開發(fā)板踩坑經(jīng)歷分享

寫在前面今天入手了一個(gè)NodeMCU的板子，準(zhǔn)備學(xué)習(xí)一下物聯(lián)網(wǎng)相關(guān)的知識(shí)。不過由于博主學(xué)藝不精，在第一步燒寫固件上就踩坑了，所以就想著把自己的踩坑經(jīng)歷寫出來分享給大家，希望能有一些幫助~ 材料準(zhǔn)備硬件：NodeMCU開發(fā)板*1（某寶指導(dǎo)價(jià)15.8元?。┸浖?/div>

2021-11-01 07:55:20

STC8A8K和LDV7語(yǔ)言模塊的使用

為了電賽準(zhǔn)備的，無奈都沒用上，這里分享一下踩過的坑。STC8A8KYS-LDV7語(yǔ)音識(shí)別模塊STC是51增強(qiáng)版，開發(fā)亦使用keil4(語(yǔ)音模塊也一樣，以下省略)，但是stc頭文件是的大坑，keil4總也找不到=

2022-01-27 06:33:57

STM32F401CCU6踩坑注意事項(xiàng)

STM32F401CCU6踩坑注意事項(xiàng)STM32F401CCU6與STM32F103C8T6相比，引腳基本上完全兼容，但是有一個(gè)引腳（PB11）必須注意，否則會(huì)引起單片機(jī)個(gè)工作不穩(wěn)定，甚至不能正常

2021-08-20 07:28:11

STM32G070CB cubemx串口調(diào)試踩過哪些坑呢

使用G070CB時(shí)寫的中斷程序是怎樣的？STM32G070CB cubemx串口調(diào)試踩過哪些坑呢？

2022-02-18 06:08:10

STM32H7+UCOSIII+LWIP踩坑記錄相關(guān)資料推薦

STM32H7+UCOSIII+LWIP踩坑記錄主要功能：?jiǎn)纹瑱C(jī)作TCP服務(wù)器實(shí)現(xiàn)PC端多客戶端連接單片機(jī)，并發(fā)傳輸數(shù)據(jù)。坑點(diǎn)1、優(yōu)先級(jí)問題：一個(gè)客戶端連接就創(chuàng)建一個(gè)線程，優(yōu)先級(jí)由高到低遞減，即先

2022-02-18 06:30:02

STM32基礎(chǔ)知識(shí)入門避坑指南

一STM32入門踩坑筆記——（2）無敵的我、又回來了。。。。又是元?dú)鉂M滿的一天、又是踩坑崩潰的一天。昨晚上連夜把跑馬燈寄存器版本搞定了。這里需要聲明一下。哈哈、首先說我不是水軍或者托兒哈??！我

2021-08-03 07:30:58

STM32編程常踩的坑有哪些？

2021-12-17 06:15:28

Xavier入門踩坑PWM問題解決方法

Xavier入門踩坑PWM問題解決方法GPIO問題解決方法PWM問題由于需要做外部傳感器的觸發(fā)同步，所以需要一個(gè)方波，考慮用Xavier的PWM，結(jié)果折騰了好久發(fā)現(xiàn)需要配置內(nèi)部硬件，折騰了好久也沒

2022-01-10 08:11:23

python2和python3同時(shí)安裝的詳細(xì)步驟

整理下python2和python3同時(shí)安裝詳細(xì)步驟希望對(duì)大家有幫助坑已踩過（親測(cè)可用?。。。?/div>

2020-10-27 09:31:54

《電子產(chǎn)品設(shè)計(jì)寶典可靠性原則2000條》+ 避免踩別人踩過的坑——一本非常由價(jià)值的經(jīng)驗(yàn)總結(jié)分享書

自己去總結(jié)，可能需要多年，甚至需要諸多踩坑經(jīng)歷才可能有所體會(huì)，這本書能分享出來，對(duì)于初學(xué)者來說值得去好好學(xué)習(xí)思考，理解背后的背景原理。大部分內(nèi)容個(gè)人覺得都是很有價(jià)值的經(jīng)驗(yàn)，也非常贊同，工作中也

2023-05-13 20:50:39

【EVB-T335開發(fā)板試用體驗(yàn)】2、開發(fā)環(huán)境搭建+踩坑紀(jì)錄

的搭建與踩坑紀(jì)錄；主要包括以下內(nèi)容：一軟件安裝1 VMWare WorkStation虛擬機(jī)的安裝2 Ubuntu操作系統(tǒng)的選擇與安裝3 Xshell串口終端的安裝二開發(fā)環(huán)境1

2017-03-06 21:20:16

【HarmonyOS HiSpark AI Camera】Hi3516開箱貼及踩坑點(diǎn)

原文鏈接：https://bbs.elecfans.com/jishu_2004436_1_1.html開箱：排好隊(duì)：裝好上電，還好沒冒煙：踩坑點(diǎn)：1.攝像頭的焦距沒有固定，如果發(fā)現(xiàn)攝像頭顏色偏

2020-11-03 16:08:05

【HarmonyOS HiSpark AI Camera試用連載】在CentOS上的編譯工具——踩坑和填坑

--with-universal-archs配置目錄make & make install就安裝好了，在這里，我踩了一個(gè)坑Failed to build these modules:_ctypes這個(gè)地方

2020-11-17 18:39:32

【HarmonyOS HiSpark AI Camera試用連載】開箱安裝及編譯環(huán)境踩坑

到Hi3516-HiTool.zip 接著分享下編譯環(huán)境搭建踩的幾個(gè)坑我之前已經(jīng)有搭建好wifi-iot的編譯環(huán)境，天真的我以為AI Carmera應(yīng)該也能直接編譯過吧，然而并不是。1./bin/sh

2021-01-09 20:51:57

【STM32+機(jī)智云】機(jī)智云手機(jī)APP點(diǎn)燈實(shí)驗(yàn)踩坑記錄精選資料分享

【STM32+機(jī)智云】機(jī)智云手機(jī)APP點(diǎn)燈實(shí)驗(yàn)踩坑記錄一、實(shí)驗(yàn)背景因?yàn)轫?xiàng)目開發(fā)需要用到云平臺(tái)，所以開始學(xué)習(xí)機(jī)智云平臺(tái)，聽說機(jī)智云比較容易入門，還有手機(jī)APP。因此開始了踩坑之旅，一切的一切開始于一天

2021-08-04 08:30:04

【書籍評(píng)測(cè)活動(dòng)NO.30】大規(guī)模語(yǔ)言模型：從理論到實(shí)踐

更多的自然語(yǔ)言處理研究人員和對(duì)大語(yǔ)言模型感興趣的讀者能夠快速了解大模型的理論基礎(chǔ)，并開展大模型實(shí)踐，復(fù)旦大學(xué)張奇教授團(tuán)隊(duì)結(jié)合他們?cè)谧匀?b class="flag-6" style="color: red">語(yǔ)言處理領(lǐng)域的研究經(jīng)驗(yàn)，以及分布式系統(tǒng)和并行計(jì)算的教學(xué)經(jīng)驗(yàn)，在

2024-03-11 15:16:39

【書籍評(píng)測(cè)活動(dòng)NO.31】大語(yǔ)言模型：原理與工程實(shí)踐

實(shí)際操作的指導(dǎo)。為了填補(bǔ)這一空白，我們歷經(jīng)一年的實(shí)踐和探索，決定分享我們的經(jīng)驗(yàn)和成果，旨在為大語(yǔ)言模型的初學(xué)者和實(shí)踐者提供快速入門和應(yīng)用的途徑。為應(yīng)對(duì)技術(shù)的快速演進(jìn)和信息的日新月異，我們建立了一個(gè)

2024-03-18 15:49:46

【國(guó)民技術(shù)N32項(xiàng)目移植】匯總一下我踩過的那些坑

【國(guó)民技術(shù)N32項(xiàng)目移植】匯總一下我踩過的那些坑國(guó)民技術(shù)與電子發(fā)燒友聯(lián)合舉辦的N32 MCU移植挑戰(zhàn)賽，從10月份開始報(bào)名，到現(xiàn)在已經(jīng)持續(xù)好幾個(gè)月了，現(xiàn)在馬上就接近最后交作品的日期了，我也要趕在

2023-02-28 16:42:55

一文為大家介紹PCB畫板時(shí)常見的鉆孔問題，避免后續(xù)踩同樣的坑

的出現(xiàn)。本文為大家介紹PCB畫板時(shí)常見的鉆孔問題，避免后續(xù)踩同樣的坑。鉆孔分為三類，通孔、盲孔、埋孔。通孔有插件孔（PTH）、螺絲定位孔（NPTH）,盲、埋孔和通孔的過孔（VIA)都是起到多層電氣導(dǎo)

2022-09-23 11:05:20

使用MDK5時(shí)出現(xiàn)過的一些error踩過的坑分享

2021-12-17 07:49:07

使用STM32采集電池電壓踩過的那些坑

本文來解析一個(gè)盆友在使用STM32采集電池電壓踩過的坑。以STM32F4 的ADC屬于逐次逼近SAR 型ADC為例進(jìn)行分析，參考STM32F405xxDatasheet，對(duì)于如何編寫ADC程序就不做描述了。

2021-03-01 07:39:43

使用樹莓派搭建stm32開發(fā)環(huán)境踩過的坑以及碰到的問題

使用樹莓派搭建stm32開發(fā)環(huán)境踩了很多坑，下面主要是記錄一下踩過的坑，以及碰到的問題。##開發(fā)方式的選擇1.使用Eclipse+GDB+OpenOCD+STlink這種方式我發(fā)現(xiàn)eclipse

2021-08-24 07:47:50

全志V853開發(fā)板試用測(cè)評(píng)報(bào)告-二開發(fā)板連接踩坑記錄

全志V853開發(fā)板試用測(cè)評(píng)報(bào)告二，開發(fā)板連接踩坑記因?yàn)樽罱恢痹陂_發(fā)嵌入式AI方面的產(chǎn)品，所以很關(guān)注高性價(jià)比的嵌入式開發(fā)平臺(tái)，在電子愛好者平臺(tái)偶然看到一款全志新推出的非常高性能的具備AI能力的開發(fā)板

2022-08-30 15:07:22

關(guān)于RK1808板子調(diào)試過程踩過的坑記錄

2022-02-16 06:38:27

關(guān)于自然語(yǔ)言處理之54 語(yǔ)言模型(自適應(yīng))

自然語(yǔ)言處理——54 語(yǔ)言模型(自適應(yīng))

2020-04-09 08:20:30

學(xué)習(xí)C語(yǔ)言的經(jīng)驗(yàn)分享

怎么學(xué)C語(yǔ)言最快？大學(xué)生只會(huì)用C語(yǔ)言寫簡(jiǎn)單的計(jì)算怎么辦？

2021-11-02 08:31:01

建分析模型？自帶分析模型的bi系統(tǒng)了解一下嗎？

個(gè)人做數(shù)據(jù)可視化就算了，但凡上升到部門級(jí)的、企業(yè)級(jí)的，都少不了搭建數(shù)據(jù)分析模型，但數(shù)據(jù)分析模型不是那么好搭建的，經(jīng)驗(yàn)不足、考慮不周都將影響到后續(xù)的數(shù)據(jù)可視化分析。有些企業(yè)用戶就是在搭建分析模型時(shí)沒做

2022-05-17 10:03:14

開發(fā)STM32 USB HID踩過的坑

記錄一下開發(fā)STM32 USB HID踩過的坑一、前言二、代碼配置一、前言MCU: STM32F103C8T6CubeMX: STM32CubeMX 5.3.0二、代碼配置引腳配置時(shí)鐘樹配置我

2021-08-24 07:15:32

總結(jié)一下GD32F13x移植踩過的坑

奇奇怪怪的問題，下面總結(jié)一下踩過的坑。第一次移植GD時(shí)，沒有完全移植，只是部分外設(shè)移植，導(dǎo)致配置混亂。STM和GD在寄存器命名上有區(qū)別，部分寄存器GD專用，導(dǎo)致配置困難，所以，最后進(jìn)行了完全移植。GD和ST的一些差異執(zhí)行速度差異GD32采用專利技術(shù)，提高了相同工作頻率下的代碼執(zhí)行速度，這樣一些在S

2022-02-11 07:54:24

是否有PLC5LP的PLL可能性微調(diào)輸出頻率分辨率為0.1赫茲？

at 32.768 kHz (standard Quartz oscillator frequency). I need such fine-tuning to syncronize 32.76 kHz signals on two separate devices within approx.

2019-07-26 14:33:11

有沒有關(guān)于STM32入門踩坑經(jīng)驗(yàn)分享

有沒有關(guān)于STM32入門踩坑經(jīng)驗(yàn)分享

2021-10-13 06:52:59

電源設(shè)計(jì)容易踩的坑和線性穩(wěn)壓選型過程

前文提到了一些線性穩(wěn)壓的主要特點(diǎn)，本文作者將結(jié)合NXP智能車大賽實(shí)際案例，說一下電源設(shè)計(jì)容易踩的坑和線性穩(wěn)壓選型過程。文章目錄主要參數(shù)輸入電壓輸出電壓主要參數(shù)在為實(shí)際應(yīng)用電路設(shè)計(jì)電源的時(shí)候，首先要

2021-11-12 07:54:58

移植debian系統(tǒng)踩過的坑

基本的linux系統(tǒng)，板子的交叉編譯器是arm-linux-gnueabihf-gcc,這給我?guī)砹瞬簧俚穆闊灾劣谙胫匦乱浦惨幌耫ebian系統(tǒng)。ok，轉(zhuǎn)入正題，說說這兩天我踩的坑吧。首先...

2021-12-14 08:42:53

自然語(yǔ)言處理的語(yǔ)言模型

自然語(yǔ)言處理——53 語(yǔ)言模型（數(shù)據(jù)平滑）

2020-04-16 11:11:25

記錄寫SAM4S的bootloader所踩的坑

2022-01-24 07:16:14

輪胎穩(wěn)態(tài)側(cè)向半經(jīng)驗(yàn)模型的研究

輪胎穩(wěn)態(tài)側(cè)向半經(jīng)驗(yàn)模型的研究輪胎半經(jīng)驗(yàn)模型在汽車的動(dòng)力學(xué)仿真研究中具有至關(guān)重要的作用。本文在總結(jié)輪胎半經(jīng)驗(yàn)模型參數(shù)識(shí)別的最優(yōu)方法的基礎(chǔ)上，對(duì)側(cè)偏側(cè)傾聯(lián)合工況下的我國(guó)郭孔輝院士的統(tǒng)一模型和荷蘭

2009-12-02 12:36:52

鴻蒙OS踩坑之旅（Hi3861開發(fā)環(huán)境配置）

前幾天在知乎發(fā)表了篇記錄文章，今天通過直播得知有鴻蒙社區(qū)，故再搬過來趁正式開課前的周末配一波環(huán)境，因?yàn)槭炀毝龋ú耍┑膯栴}T T，踩了不少坑，特意記錄一下。參考：https

2020-09-15 21:48:14

Antenna Tuning Approach Aids C

and emerging technologies for efficient antenna tuning in wireless handset devices.

2010-02-25 23:36:01

Hand-Tuning Loops and Control Code on the TMS320C6000

Hand-Tuning Loops and Control Code on the TMS320C6000

2016-08-08 18:27:32

唇語(yǔ)識(shí)別中的話題相關(guān)語(yǔ)言模型研究_王淵

唇語(yǔ)識(shí)別中的話題相關(guān)語(yǔ)言模型研究_王淵

2017-03-19 11:28:16

自然語(yǔ)言處理常用模型解析

自然語(yǔ)言處理常用模型使用方法一、N元模型二、馬爾可夫模型以及隱馬爾可夫模型及目前常用的自然語(yǔ)言處理開源項(xiàng)目/開發(fā)包有哪些？

2017-12-28 15:42:30

5382

魚與熊掌：Bert應(yīng)用模式比較與選擇

GPT和Bert則采取了另外一種應(yīng)用模式：Fine-tuning。意思是：在獲得了預(yù)訓(xùn)練模型以及對(duì)應(yīng)的網(wǎng)絡(luò)結(jié)構(gòu)（Transformer）后，第二個(gè)階段仍然采用與預(yù)訓(xùn)練過程相同的網(wǎng)絡(luò)結(jié)構(gòu)，拿出手頭任務(wù)

2019-05-14 09:25:02

3182

如何使用較小的語(yǔ)言模型，并用少量樣本來微調(diào)語(yǔ)言模型的權(quán)重

名為L(zhǎng)M-BFF（better few-shot fine-tuning fo language models）的方法相比

2021-01-07 14:27:36

1850

基于預(yù)訓(xùn)練視覺-語(yǔ)言模型的跨模態(tài)Prompt-Tuning

、新加坡國(guó)立大學(xué) 鏈接：https://arxiv.org/pdf/2109.11797.pdf 提取摘要預(yù)訓(xùn)練的視覺語(yǔ)言模型（VL-PTMs）在將自然語(yǔ)言融入圖像數(shù)據(jù)中顯示出有前景的能力，促進(jìn)

2021-10-09 15:10:42

2926

當(dāng)“大”模型遇上“小”數(shù)據(jù)

Child-Tuning，推薦給大家?！?自BERT火了以后，基本上現(xiàn)在所有NLP領(lǐng)域都all in Pre-training Fine-tuning了吧？但當(dāng)“大”規(guī)模預(yù)訓(xùn)練模型遇上“小”規(guī)模標(biāo)注數(shù)據(jù)

2021-11-09 15:49:41

1640

一種基于亂序語(yǔ)言模型的預(yù)訓(xùn)練模型-PERT

由于亂序語(yǔ)言模型不使用[MASK]標(biāo)記，減輕了預(yù)訓(xùn)練任務(wù)與微調(diào)任務(wù)之間的gap，并由于預(yù)測(cè)空間大小為輸入序列長(zhǎng)度，使得計(jì)算效率高于掩碼語(yǔ)言模型。PERT模型結(jié)構(gòu)與BERT模型一致，因此在下游預(yù)訓(xùn)練時(shí)，不需要修改原始BERT模型的任何代碼與腳本。

2022-05-10 15:01:27

1173

如何更高效地使用預(yù)訓(xùn)練語(yǔ)言模型

本文對(duì)任務(wù)低維本征子空間的探索是基于 prompt tuning, 而不是fine-tuning。原因是預(yù)訓(xùn)練模型的參數(shù)實(shí)在是太多了，很難找到這么多參數(shù)的低維本征子空間。作者基于之前的工作提出

2022-07-08 11:28:24

935

Transformer的細(xì)節(jié)和效果如何

在文本理解任務(wù)(Natural Language Understanding)上，預(yù)訓(xùn)練模型已經(jīng)取得了質(zhì)的飛躍，語(yǔ)言模型預(yù)訓(xùn)練+下游任務(wù)fine-tune基本上已經(jīng)成為標(biāo)配。

2022-08-30 10:12:28

727

NVIDIA NeMo最新語(yǔ)言模型服務(wù)幫助開發(fā)者定制大規(guī)模語(yǔ)言模型

NVIDIA NeMo 大型語(yǔ)言模型（LLM）服務(wù)幫助開發(fā)者定制大規(guī)模語(yǔ)言模型；NVIDIA BioNeMo 服務(wù)幫助研究人員生成和預(yù)測(cè)分子、蛋白質(zhì)及 DNA

2022-09-22 10:42:29

742

采用P-Tuning解決非英語(yǔ)下游任務(wù)

　　隨著對(duì)預(yù)訓(xùn)練大型語(yǔ)言模型（ LLM ）權(quán)重訪問需求的增加，圍繞 LLM 共享的環(huán)境正在發(fā)生變化。最近， Meta 發(fā)布了開式預(yù)訓(xùn)練Transformer ，一個(gè)具有 1750 億個(gè)參數(shù)的語(yǔ)言模型。 BigScience 計(jì)劃在幾個(gè)月內(nèi)發(fā)布具有 1760 億個(gè)參數(shù)的多語(yǔ)言模型。

2022-10-10 11:46:27

1514

一種基于new concepts的text-to-image生成模型的fine-tuning方法

通過簡(jiǎn)單文本prompts，用戶能夠生成前所未有的質(zhì)量的圖像。這樣的模型可以生成各種各樣的對(duì)象、風(fēng)格和場(chǎng)景，并把它們進(jìn)行組合排序，這讓現(xiàn)有的圖像生成模型看上去是無所不能的。

2023-01-03 17:08:17

741

支持Python和Java的BigCode開源輕量級(jí)語(yǔ)言模型

BigCode 是一個(gè)開放的科學(xué)合作組織，致力于開發(fā)大型語(yǔ)言模型。近日他們開源了一個(gè)名為 SantaCoder 的語(yǔ)言模型，該模型擁有 11 億個(gè)參數(shù)

2023-01-17 14:29:53

692

Prompt Tuning相比于Fine Tuning在哪些場(chǎng)景下表現(xiàn)更好？

第三范式：基于「預(yù)訓(xùn)練模型 + finetuning」的范式，如 BERT + finetuning 的NLP任務(wù)，相比于第二范式，模型準(zhǔn)確度顯著提高，但是模型也隨之變得更大，但小數(shù)據(jù)集就可訓(xùn)練出好模型；

2023-02-02 14:36:33

2078

有了Fine-tune-CoT方法，小模型也能做推理，完美逆襲大模型

如果給語(yǔ)言模型生成一些 prompting，它還向人們展示了其解決復(fù)雜任務(wù)的能力。標(biāo)準(zhǔn) prompting 方法，即為使用少樣本的問答對(duì)或零樣本的指令的一系列方法，已經(jīng)被證明不足以解決需要多個(gè)推理步驟的下游任務(wù)（Chowdhery 等，2022）。

2023-02-02 16:15:26

772

嵌入式C語(yǔ)言代碼優(yōu)化經(jīng)驗(yàn)與方法

在本篇文章中，收集了很多經(jīng)驗(yàn)和方法。應(yīng)用這些經(jīng)驗(yàn)和方法，可以幫助我們從執(zhí)行速度和內(nèi)存使用等方面來優(yōu)化C語(yǔ)言代碼。簡(jiǎn)介在最近的一個(gè)項(xiàng)目中，我們需要開發(fā)一個(gè)運(yùn)行在移動(dòng)設(shè)備上但不保證圖像高質(zhì)量的輕量級(jí)

2023-02-09 01:21:39

370

詳細(xì)解讀ChatGPT 背后的技術(shù)重點(diǎn)

通常，基礎(chǔ)模型的語(yǔ)言建模目標(biāo)不足以讓模型學(xué)會(huì)以有用的方式遵循用戶的指令。模型創(chuàng)建者使用「指令微調(diào) (Instruction Fine-Tuning，IFT)」方法來達(dá)到該目的。

2023-02-09 10:20:39

622

大型語(yǔ)言模型有哪些用途？

大型語(yǔ)言模型能識(shí)別、總結(jié)、翻譯、預(yù)測(cè)和生成文本及其他內(nèi)容。 AI 應(yīng)用在大型語(yǔ)言模型的幫助下，可用于解決總結(jié)文章、編寫故事和參與長(zhǎng)對(duì)話等多種繁重工作。大型語(yǔ)言模型（LLM）是一種深度學(xué)習(xí)算法，可以

2023-02-23 19:50:04

3887

大型語(yǔ)言模型有哪些用途？大型語(yǔ)言模型如何運(yùn)作呢？

大型語(yǔ)言模型能識(shí)別、總結(jié)、翻譯、預(yù)測(cè)和生成文本及其他內(nèi)容。

2023-03-08 13:57:00

6989

各種大語(yǔ)言模型是徹底被解封了

基礎(chǔ) LLM 基本信息表，GPT-style 表示 decoder-only 的自回歸語(yǔ)言模型，T5-style 表示 encoder-decoder 的語(yǔ)言模型，GLM-style 表示 GLM 特殊的模型結(jié)構(gòu)，Multi-task 是指 ERNIE 3.0 的模型結(jié)構(gòu)

2023-04-20 11:25:44

1071

自然語(yǔ)言和ChatGPT的大模型調(diào)教攻略

指令調(diào)整（Instruction Tuning）將多種任務(wù)轉(zhuǎn)化成自然語(yǔ)言表述的形式，再通過seq2seq的監(jiān)督學(xué)習(xí)+多任務(wù)學(xué)習(xí)的方式調(diào)整大規(guī)模語(yǔ)言模型的參數(shù)。

2023-04-24 10:28:29

518

AI大語(yǔ)言模型的原理、演進(jìn)及算力測(cè)算專題報(bào)告

GPT是基于Transformer架構(gòu)的大語(yǔ)言模型，近年迭代演進(jìn)迅速。構(gòu)建語(yǔ)言模型是自然語(yǔ)言處理中最基本和最重要的任務(wù)之一。GPT是基于Transformer架構(gòu)衍生出的生成式預(yù)訓(xùn)練的單向語(yǔ)言模型，通過對(duì)大量語(yǔ)料數(shù)據(jù)進(jìn)行無監(jiān)督學(xué)習(xí)

2023-04-28 10:01:59

585

PyTorch教程9.3.之語(yǔ)言模型

電子發(fā)燒友網(wǎng)站提供《PyTorch教程9.3.之語(yǔ)言模型.pdf》資料免費(fèi)下載

2023-06-05 09:59:00

PyTorch教程-9.3. 語(yǔ)言模型

9.3. 語(yǔ)言模型? Colab [火炬]在 Colab 中打開筆記本 Colab [mxnet] Open the notebook in Colab Colab [jax

2023-06-05 15:44:24

268

650億參數(shù)，8塊GPU就能全參數(shù)微調(diào)！邱錫鵬團(tuán)隊(duì)把大模型門檻打下來了！

在上周復(fù)旦大學(xué)邱錫鵬團(tuán)隊(duì)提交的論文《Full Parameter Fine-tuning for Large Language Models with Limited Resources》中，研究人員提出了一種新的優(yōu)化器 LOw-Memory Optimization（LOMO）。

2023-06-21 14:00:34

598

大型語(yǔ)言模型的應(yīng)用

?? 大型語(yǔ)言模型（LLM）是一種深度學(xué)習(xí)算法，可以通過大規(guī)模數(shù)據(jù)集訓(xùn)練來學(xué)習(xí)識(shí)別、總結(jié)、翻譯、預(yù)測(cè)和生成文本及其他內(nèi)容。大語(yǔ)言模型（LLM）代表著 AI 領(lǐng)域的重大進(jìn)步，并有望通過習(xí)得的知識(shí)改變

2023-07-05 10:27:35

1463

達(dá)觀曹植大模型正式對(duì)外公測(cè)！專注于長(zhǎng)文本、多語(yǔ)言、垂直化發(fā)展

工程實(shí)踐經(jīng)驗(yàn)，已開發(fā)出具有長(zhǎng)文本、多語(yǔ)言、垂直化三大特點(diǎn)的專用國(guó)產(chǎn)“曹植”大語(yǔ)言模型。7月伊始，達(dá)觀正式對(duì)外發(fā)布“曹植”大語(yǔ)言模型應(yīng)用公測(cè)版，可在達(dá)觀數(shù)據(jù)官網(wǎng)申請(qǐng)?jiān)囉茫?申請(qǐng)通道與規(guī)則 1?申請(qǐng)通道公司官網(wǎng)申請(qǐng)通道

2023-07-12 15:04:01

552

語(yǔ)言模型的發(fā)展歷程基于神經(jīng)網(wǎng)絡(luò)的語(yǔ)言模型解析

簡(jiǎn)單來說，語(yǔ)言模型能夠以某種方式生成文本。它的應(yīng)用十分廣泛，例如，可以用語(yǔ)言模型進(jìn)行情感分析、標(biāo)記有害內(nèi)容、回答問題、概述文檔等等。但理論上，語(yǔ)言模型的潛力遠(yuǎn)超以上常見任務(wù)。

2023-07-14 11:45:40

454

自動(dòng)駕駛中道路異常檢測(cè)的方法解析

個(gè)fine-tuning過程中, 利用新加入的OoD object來強(qiáng)行增加原本segmentation模型對(duì)異常的敏感度, 使得其OoD分割的性能得到了非常大的提升。

2023-08-15 10:43:46

611

清華大學(xué)大語(yǔ)言模型綜合性能評(píng)估報(bào)告發(fā)布！哪個(gè)模型更優(yōu)秀？

近日，清華大學(xué)新聞與傳播學(xué)院發(fā)布了《大語(yǔ)言模型綜合性能評(píng)估報(bào)告》，該報(bào)告對(duì)目前市場(chǎng)上的7個(gè)大型語(yǔ)言模型進(jìn)行了全面的綜合評(píng)估。近年，大語(yǔ)言模型以其強(qiáng)大的自然語(yǔ)言處理能力，成為AI領(lǐng)域的一大熱點(diǎn)。它們

2023-08-10 08:32:01

607

檢索增強(qiáng)的語(yǔ)言模型方法的詳細(xì)剖析

? 本篇內(nèi)容是對(duì)于ACL‘23會(huì)議上陳丹琦團(tuán)隊(duì)帶來的Tutorial所進(jìn)行的學(xué)習(xí)記錄，以此從問題設(shè)置、架構(gòu)、應(yīng)用、挑戰(zhàn)等角度全面了解檢索增強(qiáng)的語(yǔ)言模型，作為對(duì)后續(xù)工作的準(zhǔn)備與入門，也希望能給大家?guī)?/div>

2023-08-21 09:58:01

1234

大語(yǔ)言模型“書生·浦語(yǔ)”多項(xiàng)專業(yè)評(píng)測(cè)拔頭籌

最近，AI大模型測(cè)評(píng)火熱，尤其在大語(yǔ)言模型領(lǐng)域，“聰明”的上限被不斷刷新。商湯與上海AI實(shí)驗(yàn)室等聯(lián)合打造的大語(yǔ)言模型“書生·浦語(yǔ)”（InternLM）也表現(xiàn)出色，分別在智源FlagEval

2023-08-25 13:00:02

315

訓(xùn)練大語(yǔ)言模型帶來的硬件挑戰(zhàn)

生成式AI和大語(yǔ)言模型（LLM）正在以難以置信的方式吸引全世界的目光，本文簡(jiǎn)要介紹了大語(yǔ)言模型，訓(xùn)練這些模型帶來的硬件挑戰(zhàn)，以及GPU和網(wǎng)絡(luò)行業(yè)如何針對(duì)訓(xùn)練的工作負(fù)載不斷優(yōu)化硬件。

2023-09-01 17:14:56

1046

騰訊發(fā)布混元大語(yǔ)言模型

騰訊發(fā)布混元大語(yǔ)言模型騰訊全球數(shù)字生態(tài)大會(huì)上騰訊正式發(fā)布了混元大語(yǔ)言模型，參數(shù)規(guī)模超千億，預(yù)訓(xùn)練語(yǔ)料超2萬(wàn)億tokens。作為騰訊自研的通用大語(yǔ)言模型，混元大語(yǔ)言模型具有中文創(chuàng)作能力、任務(wù)執(zhí)行

2023-09-07 10:23:54

815

華為提出Sorted LLaMA：SoFT代替SFT，訓(xùn)練多合一大語(yǔ)言模型

而這一切的背后，是一項(xiàng)名為Sorted Fine-Tuning（SoFT）的新訓(xùn)練技術(shù)。SoFT讓我們可以在一個(gè)訓(xùn)練周期內(nèi)產(chǎn)出多個(gè)子模型，無需任何額外的預(yù)訓(xùn)練步驟。此外，這項(xiàng)技術(shù)還揭示了模型的中間層也能夠產(chǎn)生高質(zhì)量的輸出，這一點(diǎn)在之前的研究中常常被忽視。

2023-09-26 16:26:31

440

揭秘編碼器與解碼器語(yǔ)言模型

Transformer 架構(gòu)的問世標(biāo)志著現(xiàn)代語(yǔ)言大模型時(shí)代的開啟。自 2018 年以來，各類語(yǔ)言大模型層出不窮。

2023-10-24 11:42:05

337

基于檢索的大語(yǔ)言模型簡(jiǎn)介

簡(jiǎn)介章節(jié)講的是比較基礎(chǔ)的，主要介紹了本次要介紹的概念，即檢索（Retrieval）和大語(yǔ)言模型（LLM）

2023-11-15 14:50:36

282

深度對(duì)談：廣告創(chuàng)意領(lǐng)域中AIGC的應(yīng)用

隨著 AI 能力的提升，人們需要深入使用并掌握它。像 fine-tuning、LangChain 等我不會(huì)推薦，我會(huì)鼓勵(lì)周圍的人去深入使用 AIGC，重點(diǎn)在于使用，好的 AGI 只需要被編譯一次。

2023-11-29 17:14:05

569

大語(yǔ)言模型簡(jiǎn)介：基于大語(yǔ)言模型模型全家桶Amazon Bedrock

本文基于亞馬遜云科技推出的大語(yǔ)言模型與生成式AI的全家桶：Bedrock對(duì)大語(yǔ)言模型進(jìn)行介紹。大語(yǔ)言模型指的是具有數(shù)十億參數(shù)（B+）的預(yù)訓(xùn)練語(yǔ)言模型（例如：GPT-3, Bloom, LLaMA)。這種模型可以用于各種自然語(yǔ)言處理任務(wù)，如文本生成、機(jī)器翻譯和自然語(yǔ)言理解等。

2023-12-04 15:51:46

356

大語(yǔ)言模型概述

在科技飛速發(fā)展的當(dāng)今時(shí)代，人工智能技術(shù)成為社會(huì)進(jìn)步的關(guān)鍵推動(dòng)力之一。在廣泛關(guān)注的人工智能領(lǐng)域中，大語(yǔ)言模型以其引人注目的特性備受矚目。大語(yǔ)言模型的定義及發(fā)展歷史大語(yǔ)言模型是一類基于深度學(xué)習(xí)技術(shù)

2023-12-21 17:53:59

555

大語(yǔ)言模型使用指南

在信息爆炸的時(shí)代，我們渴望更智能、更高效的語(yǔ)言處理工具。GPT-3.5等大語(yǔ)言模型的崛起為我們提供了前所未有的機(jī)會(huì)。這不僅是技術(shù)的進(jìn)步，更是人與機(jī)器共舞的一幕。本篇文章將帶你走進(jìn)這個(gè)奇妙的語(yǔ)言王國(guó)

2023-12-29 14:18:59

276

四種微調(diào)大模型的方法介紹

全微調(diào)（Full Fine-tuning）：全微調(diào)是指對(duì)整個(gè)預(yù)訓(xùn)練模型進(jìn)行微調(diào)，包括所有的模型參數(shù)。在這種方法中，預(yù)訓(xùn)練模型的所有層和參數(shù)都會(huì)被更新和優(yōu)化，以適應(yīng)目標(biāo)任務(wù)的需求。

2024-01-03 10:57:21

2301

大語(yǔ)言模型中的語(yǔ)言與知識(shí)：一種神秘的分離現(xiàn)象

自然語(yǔ)言處理領(lǐng)域存在著一個(gè)非常有趣的現(xiàn)象：在多語(yǔ)言模型中，不同的語(yǔ)言之間似乎存在著一種隱含的對(duì)齊關(guān)系。

2024-02-20 14:53:06

已全部加載完成

搜索歷史

大語(yǔ)言模型Fine-tuning踩坑經(jīng)驗(yàn)分享

評(píng)論