大型語(yǔ)言模型(llm)是一種人工智能(AI),在大量文本和代碼數(shù)據(jù)集上進(jìn)行訓(xùn)練。它們可以用于各種任務(wù),包括生成文本、翻譯語(yǔ)言和編寫(xiě)不同類型的創(chuàng)意內(nèi)容。
今年開(kāi)始,人們對(duì)開(kāi)源LLM越來(lái)越感興趣。這些模型是在開(kāi)源許可下發(fā)布的,這意味著任何人都可以使用、修改和分發(fā)它們。這使得研究人員、開(kāi)發(fā)人員和企業(yè)都可以嘗試LLM,并為它們開(kāi)發(fā)新的應(yīng)用程序。使用開(kāi)源llm有很多好處。首先它們通常比專業(yè)的LLM更價(jià)便宜。并且它們更加透明,這意味著研究人員可以研究它們是如何工作的以及它們是如何做出決定的。最主要的是它們更加靈活,可以針對(duì)不同的任務(wù)進(jìn)行定制。
本文總結(jié)了當(dāng)前可用的開(kāi)源llm的全部(幾乎全部)列表,以及有關(guān)其許可選項(xiàng)和源代碼存儲(chǔ)庫(kù)的信息,希望對(duì)你有所幫助。
▎SAIL 7B
基于LLaMa的搜索增強(qiáng)
參數(shù):7B
許可類型:GPL-3.0
發(fā)布日期:2023年5月
論文:SAIL — Search Augmented Instruction Learning
▎Guanaco
采用高效微調(diào)方法QLoRA發(fā)布的LLM模型
參數(shù):65B
許可類型:MIT
發(fā)布日期:2023年5月
論文:QLoRA — Efficient Finetuning of Quantized LLMs
▎RMKV
與transformer的LLM性能相當(dāng)?shù)腞NN模型
參數(shù):100M–14B
許可類型:Apache 2.0
發(fā)布日期:2023年5月
論文:Scaling RNN to 1.5B and Reach Transformer LM Performance
▎MPT-7B
MosaicML的基礎(chǔ)系列模型
參數(shù):7B
許可類型:Apache 2.0
發(fā)布日期:2023年5月
論文:MPT-7B — A New Standard for Open-Source, Commercially Usable LLMs
▎OpenLLaMa
在RedPajama數(shù)據(jù)集上訓(xùn)練的Meta AI的LLaMA 7B的另一個(gè)開(kāi)源復(fù)制。
參數(shù):3,7B
許可類型:Apache 2.0
發(fā)布日期:2023年5月
論文:Meet OpenLLaMA — An Open-Source Reproduction of Meta AI’s LLaMA Large Language Model
▎RedPajama-INCITE
基于RedPajama數(shù)據(jù)集上訓(xùn)練的指令調(diào)整和聊天Pythia模型。
參數(shù):3B, 7B
許可類型:Apache 2.0
發(fā)布日期:2023年5月
論文:RedPajama-INCITE family of models including base, instruction-tuned & chat models
▎h2oGPT
H2O的微調(diào)框架和文檔問(wèn)答功能的聊天機(jī)器人UI
參數(shù):12B,30B
許可類型:Apache 2.0
發(fā)布日期:2023年5月
論文:Building the World’s Best Open-Source Large Language Model:H2O.ai’s Journey
▎FastChat-T5
通過(guò)微調(diào)Flan-t5-xl對(duì)從ShareGPT收集的用戶共享對(duì)話進(jìn)行訓(xùn)練的聊天機(jī)器人
參數(shù):3B
許可類型:Apache 2.0
發(fā)布日期:2023年4月
論文:FastChat-T5 — our compact and commercial-friendly chatbot!
▎GPT4All
用于訓(xùn)練和部署強(qiáng)大的定制llm的完整工具系統(tǒng)
參數(shù):7–13B
許可類型:MIT
發(fā)布日期:2023年4月
論文:GPT4All:An ecosystem of open-source on-edge large language models.
▎MiniGPT-4
基于BLIP-2和Vicuna LLM的Visual LLM模型
參數(shù):13B
許可類型:BSD-3-Clause
發(fā)布日期:2023年4月
論文:MiniGPT-4 — Enhancing Vision-Language Understanding withAdvanced Large Language Models
▎StableLM
StableLM的LLM模型系列
參數(shù):7B
許可類型:CC BY-NC-SA-4.0
發(fā)布日期:2023年4月
論文:Stability AI Launches the First of its StableLM Suite of Language Models
▎BloomZ
通過(guò)多任務(wù)微調(diào)實(shí)現(xiàn)跨語(yǔ)言泛化
參數(shù):176B
許可類型:Apache 2.0
發(fā)布日期:2023年4月
論文:Cross-lingual Generalization through Multitask Finetuning
▎Dolly
Pythia 12B LLM在Databricks ML平臺(tái)上訓(xùn)練的模型
參數(shù):12B
許可類型:Apache 2.0
發(fā)布日期:2023年4月
論文:Free Dolly — Introducing the World’s First Truly Open Instruction-Tuned LLM
▎Baize Chatbot
基于LLaMa的開(kāi)源聊天模型
參數(shù):30B
許可類型:GPL-3.0 license
發(fā)布日期:2023年4月
論文:Baize — An Open-Source Chat Model with Parameter-Efficient Tuning on Self-Chat Data
▎ColossalChat
由ColossalAI開(kāi)源發(fā)布的一個(gè)完整的RLHF流程訓(xùn)練的模型
參數(shù):N/A
許可類型:Apache 2.0
發(fā)布日期:2023年4月
論文:ColossalChat — An Open-Source Solution for Cloning ChatGPT With a Complete RLHF Pipeline
▎Lit LLaMa
來(lái)自Lightning AI的LLaMA的開(kāi)源實(shí)現(xiàn)
參數(shù):13B
許可類型:Apache 2.0
發(fā)布日期:2023年4月
論文:Why We’re Building Lit-LLaMA
▎Cerebras-GPT
開(kāi)放的,計(jì)算效率高的,大型語(yǔ)言模型
參數(shù):111M-13B
許可類型:Apache 2.0
發(fā)布日期:2023年3月
論文:Cerebras-GPT — Open Compute-Optimal Language ModelsTrained on the Cerebras Wafer-Scale Cluster
▎Open Flamingo
Deepmind的Flamingo模型的開(kāi)源實(shí)現(xiàn)
參數(shù):9B
許可類型:MIT License
發(fā)布日期:2023年3月
論文:Openflamingo — An Open-source Framework For Training Vision-language Models With In-context Learning
▎Chat GLM
使用開(kāi)放式雙語(yǔ)(中英文)雙向密集預(yù)訓(xùn)練模型
參數(shù):6B-130B
許可類型:Apache 2.0
發(fā)布日期:2023年3月
論文:GLM-130B:An Open Bilingual Pre-trained Model
▎DLite
通過(guò)微調(diào)Alpaca數(shù)據(jù)集上最小的GPT-2模型
參數(shù):124M
許可類型:Apache 2.0
發(fā)布日期:2023年3月
論文:Introducing DLite, a Lightweight ChatGPT-Like Model Based on Dolly
▎Alpaca 7B
描述:斯坦福大學(xué)發(fā)布的指令遵循LLaMA模型
參數(shù):7B
許可類型:Apache 2.0
發(fā)布日期:2023年3月
論文:Alpaca — A Strong, Replicable Instruction-Following Model
▎Flan UL2
在預(yù)訓(xùn)練的UL2檢查點(diǎn)上訓(xùn)練Flan 20B模型。
參數(shù):20B
許可類型:MIT License
發(fā)布日期:2023年3月
論文:A New Open Source Flan 20B with UL2
▎Flan-T5
T5在各種數(shù)據(jù)集上的指令微調(diào),提高預(yù)訓(xùn)練語(yǔ)言模型的可用性
參數(shù):60M–11B
許可類型:Apache 2.0
發(fā)布日期:2023年2月
論文:Scaling Instruction-Finetuned Language Models
總結(jié)
最后再補(bǔ)充2個(gè)剛剛發(fā)布的模型,一個(gè)是llama-2,這個(gè)我們文章也在前幾天介紹了微調(diào)和使用的方法。另外一個(gè)就是昨天剛看到的新聞,stabilityai發(fā)布的 FreeWilly2,它是在 Llama2 70B 上微調(diào)的結(jié)果,目前在open_llm_leaderboard上排第一。開(kāi)源大型語(yǔ)言模型正在迅速發(fā)展,開(kāi)源社區(qū)發(fā)布了許多模型。這些模型為開(kāi)發(fā)人員、研究人員和愛(ài)好者提供了一個(gè)非常大機(jī)會(huì),可以在沒(méi)有專有系統(tǒng)的情況下試驗(yàn)尖端的語(yǔ)言技術(shù)。隨著越來(lái)越多的組織和個(gè)人為這些模型的發(fā)展做出貢獻(xiàn),我們可以期待看到更強(qiáng)大、更容易使用和更創(chuàng)新的語(yǔ)言模型,它們將塑造自然語(yǔ)言處理的未來(lái)。
作者:Manikanth
-
語(yǔ)言
+關(guān)注
關(guān)注
1文章
97瀏覽量
24399 -
開(kāi)源
+關(guān)注
關(guān)注
3文章
3533瀏覽量
43306 -
模型
+關(guān)注
關(guān)注
1文章
3464瀏覽量
49832
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
無(wú)法在OVMS上運(yùn)行來(lái)自Meta的大型語(yǔ)言模型 (LLM),為什么?
大語(yǔ)言模型的解碼策略與關(guān)鍵優(yōu)化總結(jié)

Meta重磅發(fā)布Llama 3.3 70B:開(kāi)源AI模型的新里程碑

大語(yǔ)言模型開(kāi)發(fā)框架是什么
NVIDIA GeForce 256發(fā)布25周年
谷歌計(jì)劃12月發(fā)布Gemini 2.0模型
搭建開(kāi)源大語(yǔ)言模型服務(wù)的方法
如何利用大型語(yǔ)言模型驅(qū)動(dòng)的搜索為公司創(chuàng)造價(jià)值

使用OpenVINO 2024.4在算力魔方上部署Llama-3.2-1B-Instruct模型

2024 年 19 種最佳大型語(yǔ)言模型

基于CPU的大型語(yǔ)言模型推理實(shí)驗(yàn)

英偉達(dá)開(kāi)源Nemotron-4 340B系列模型,助力大型語(yǔ)言模型訓(xùn)練
智譜AI發(fā)布全新多模態(tài)開(kāi)源模型GLM-4-9B
了解大型語(yǔ)言模型 (LLM) 領(lǐng)域中的25個(gè)關(guān)鍵術(shù)語(yǔ)

評(píng)論