一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

只需一個API,包含了27個預訓練模型

DPVg_AI_era ? 來源:lq ? 2019-07-27 07:52 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

只需一個API,直接調(diào)用BERT, GPT, GPT-2, Transfo-XL, XLNet, XLM等6大框架,包含了27個預訓練模型。簡單易用,功能強大。

One API to rule them all。

前幾日,著名最先進的自然語言處理預訓練模型庫項目pytorch-pretrained-bert改名Pytorch-Transformers重裝襲來,1.0.0版橫空出世。

只需一個API,直接調(diào)用BERT, GPT, GPT-2, Transfo-XL, XLNet, XLM等6大框架,包含了27個預訓練模型。

簡單易用,功能強大。目前已經(jīng)包含了PyTorch實現(xiàn)、預訓練模型權重、運行腳本和以下模型的轉(zhuǎn)換工具:

BERT,論文:“BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding”,論文作者:Jacob Devlin, Ming-Wei Chang, Kenton Lee,Kristina Toutanova

OpenAI 的GPT,論文:“Improving Language Understanding by Generative Pre-Training”,論文作者:Alec Radford, Karthik Narasimhan, Tim Salimans, Ilya Sutskever

OpenAI的GPT-2,論文:“Language Models are Unsupervised Multitask Learners”,論文作者:Alec Radford, Jeffrey Wu, Rewon Child, David Luan, Dario Amodei,Ilya Sutskever

谷歌和CMU的Transformer-XL,論文:“Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context”,論文作者:Zihang Dai, Zhilin Yang, Yiming Yang, Jaime Carbonell, Quoc V. Le, Ruslan Salakhutdinov.

谷歌和CMU的XLNet,論文:“XLNet: Generalized Autoregressive Pretraining for Language Understanding”,論文作者:Zhilin Yang, Zihang Dai, Yiming Yang, Jaime Carbonell, Ruslan Salakhutdinov, Quoc V. Le

Facebook的XLM,論文:“Cross-lingual Language Model Pretraining”,論文作者:Guillaume Lample,Alexis Conneau

這些實現(xiàn)都在幾個數(shù)據(jù)集(參見示例腳本)上進行了測試,性能與原始實現(xiàn)相當,例如BERT中文全詞覆蓋在SQuAD數(shù)據(jù)集上的F1分數(shù)為93;OpenAI GPT 在RocStories上的F1分數(shù)為88;Transformer-XL在WikiText 103上的困惑度為18.3;XLNet在STS-B的皮爾遜相關系數(shù)為0.916。

項目中提供27個預訓練模型,下面是這些模型的完整列表,以及每個模型的簡短介紹。

BERT-base和BERT-large分別是110M和340M參數(shù)模型,并且很難在單個GPU上使用推薦的批量大小對其進行微調(diào),來獲得良好的性能(在大多數(shù)情況下批量大小為32)。

為了幫助微調(diào)這些模型,作者提供了幾種可以在微調(diào)腳本中激活的技術 run_bert_classifier.py和run_bert_squad.py:梯度累積(gradient-accumulation),多GPU訓練(multi-gpu training),分布式訓練(distributed training )和16- bits 訓練( 16-bits training)。

注意,這里要使用分布式訓練和16- bits 訓練,你需要安裝NVIDIA的apex擴展。

作者在doc中展示了幾個基于BERT原始實現(xiàn)和擴展的微調(diào)示例,分別為:

九個不同GLUE任務的序列級分類器;

問答集數(shù)據(jù)集SQUAD上的令牌級分類器;

SWAG分類語料庫中的序列級多選分類器;

另一個目標語料庫上的BERT語言模型。

這里僅展示GLUE的結果:

該項目是在Python 2.7和3.5+上測試(例子只在python 3.5+上測試)和PyTorch 0.4.1到1.1.0測試。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 自然語言處理

    關注

    1

    文章

    628

    瀏覽量

    14168
  • pytorch
    +關注

    關注

    2

    文章

    809

    瀏覽量

    13978

原文標題:GitHub超9千星:一個API調(diào)用27個NLP預訓練模型

文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    用PaddleNLP為GPT-2模型制作FineWeb二進制訓練數(shù)據(jù)集

    作者:算力魔方創(chuàng)始人/英特爾創(chuàng)新大使劉力 《用PaddleNLP在4060單卡上實踐大模型訓練技術》發(fā)布后收到讀者熱烈反響,很多讀者要求進步講解更多的技術細節(jié)。本文主要針對大語言
    的頭像 發(fā)表于 03-21 18:24 ?1702次閱讀
    用PaddleNLP為GPT-2<b class='flag-5'>模型</b>制作FineWeb二進制<b class='flag-5'>預</b><b class='flag-5'>訓練</b>數(shù)據(jù)集

    無法轉(zhuǎn)換TF OD API掩碼RPGA模型怎么辦?

    無法轉(zhuǎn)換重新訓練的 TF OD API 掩碼 RPGA 模型,該模型使用以下命令在 GPU 上工作: mo > --saved_model_dir
    發(fā)表于 03-06 06:44

    從Open Model Zoo下載的FastSeg大型公共訓練模型,無法導入名稱是怎么回事?

    從 Open Model Zoo 下載的 FastSeg 大型公共訓練模型。 運行 converter.py 以將 FastSeg 大型模型轉(zhuǎn)換為中間表示 (IR): pyth
    發(fā)表于 03-05 07:22

    用PaddleNLP在4060單卡上實踐大模型訓練技術

    作者:算力魔方創(chuàng)始人/英特爾創(chuàng)新大使劉力 之前我們分享了《從零開始訓練大語言模型需要投資多少錢》,其中高昂的
    的頭像 發(fā)表于 02-19 16:10 ?1019次閱讀
    用PaddleNLP在4060單卡上實踐大<b class='flag-5'>模型</b><b class='flag-5'>預</b><b class='flag-5'>訓練</b>技術

    騰訊公布大語言模型訓練新專利

    大語言模型訓練過程中引入第摘要文本和第二摘要文本,為模型提供了更為豐富的學習信息。這兩摘要文本在信息量上存在差異,且第
    的頭像 發(fā)表于 02-10 09:37 ?422次閱讀

    模型訓練框架(五)之Accelerate

    Hugging Face 的 Accelerate1是用于簡化和加速深度學習模型訓練的庫,它支持在多種硬件配置上進行分布式訓練,包括 C
    的頭像 發(fā)表于 01-14 14:24 ?726次閱讀

    KerasHub統(tǒng)、全面的訓練模型

    深度學習領域正在迅速發(fā)展,在處理各種類型的任務中,訓練模型變得越來越重要。Keras 以其用戶友好型 API 和對易用性的重視而聞名,始終處于這
    的頭像 發(fā)表于 12-20 10:32 ?502次閱讀

    什么是大模型、大模型是怎么訓練出來的及大模型作用

    ,基礎模型。 ? 大模型簡稱,完整的叫法,應該是“人工智能訓練
    的頭像 發(fā)表于 11-25 09:29 ?1.3w次閱讀
    什么是大<b class='flag-5'>模型</b>、大<b class='flag-5'>模型</b>是怎么<b class='flag-5'>訓練</b>出來的及大<b class='flag-5'>模型</b>作用

    寫給小白的大模型入門科普

    什么是大模型?大模型,英文名叫LargeModel,大型模型。早期的時候,也叫FoundationModel,基礎模型。大模型
    的頭像 發(fā)表于 11-23 01:06 ?708次閱讀
    寫給小白的大<b class='flag-5'>模型</b>入門科普

    從零開始訓練大語言模型需要投資多少錢?

    ,前言 ? 在AI領域,訓練大型語言模型(LLM)是
    的頭像 發(fā)表于 11-08 14:15 ?796次閱讀
    從零開始<b class='flag-5'>訓練</b><b class='flag-5'>一</b><b class='flag-5'>個</b>大語言<b class='flag-5'>模型</b>需要投資多少錢?

    如何訓練自己的LLM模型

    訓練自己的大型語言模型(LLM)是復雜且資源密集的過程,涉及到大量的數(shù)據(jù)、計算資源和專業(yè)知識。以下是訓練LLM
    的頭像 發(fā)表于 11-08 09:30 ?1537次閱讀

    如何訓練自己的AI大模型

    訓練自己的AI大模型復雜且耗時的過程,涉及多個關鍵步驟。以下是詳細的
    的頭像 發(fā)表于 10-23 15:07 ?5024次閱讀

    直播預約 |數(shù)據(jù)智能系列講座第4期:訓練的基礎模型下的持續(xù)學習

    鷺島論壇數(shù)據(jù)智能系列講座第4期「訓練的基礎模型下的持續(xù)學習」10月30日(周三)20:00精彩開播期待與您云相聚,共襄學術盛宴!|直播信息報告題目
    的頭像 發(fā)表于 10-18 08:09 ?610次閱讀
    直播預約 |數(shù)據(jù)智能系列講座第4期:<b class='flag-5'>預</b><b class='flag-5'>訓練</b>的基礎<b class='flag-5'>模型</b>下的持續(xù)學習

    NVIDIA Nemotron-4 340B模型幫助開發(fā)者生成合成訓練數(shù)據(jù)

    Nemotron-4 340B 是針對 NVIDIA NeMo 和 NVIDIA TensorRT-LLM 優(yōu)化的模型系列,該系列包含最先進的指導和獎勵模型,以及
    的頭像 發(fā)表于 09-06 14:59 ?740次閱讀
    NVIDIA Nemotron-4 340B<b class='flag-5'>模型</b>幫助開發(fā)者生成合成<b class='flag-5'>訓練</b>數(shù)據(jù)

    如何訓練有效的eIQ基本分類模型

    在 MCX CPU和eIQ Neutron NPU上。 eIQPortal它是直觀的圖形用戶界面(GUI),簡化了ML開發(fā)。開發(fā)人員可以創(chuàng)建、優(yōu)化、調(diào)試和導出ML模型,以及導入數(shù)據(jù)集和模型
    的頭像 發(fā)表于 08-01 09:29 ?2840次閱讀
    如何<b class='flag-5'>訓練</b><b class='flag-5'>一</b><b class='flag-5'>個</b>有效的eIQ基本分類<b class='flag-5'>模型</b>