一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

支持Python和Java的BigCode開源輕量級語言模型

OSC開源社區(qū) ? 來源:OSC開源社區(qū) ? 2023-01-17 14:29 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

BigCode 是一個開放的科學合作組織,致力于開發(fā)大型語言模型。

近日他們開源了一個名為 SantaCoder 的語言模型,該模型擁有 11 億個參數,可以用于 PythonJava 和 JavaScript 這幾種編程語言的代碼生成和補全建議。

根據官方提供的信息,訓練 SantaCoder 的基礎是 The Stack(v1.1)數據集,SantaCoder 雖然規(guī)模相對較小,只有 11 億個參數,在參數的絕對數量上低于 InCoder(67 億)或 CodeGen-multi(27 億),但 SantaCoder 的表現(xiàn)則是要遠好于這些大型多語言模型。

不過也正是參數遠遠不及 GPT-3 等參數超過千億級別的超大型語言模型,SantaCoder 適用的編程語言范圍也比較有限,僅支持 Python、Java 和 JavaScript 三種語言。

5f7b7c24-85ec-11ed-bfe3-dac502259ad0.png

為了照顧用戶隱私和保證訓練質量,在訓練模型之前,BigCode 注釋了 400 個樣本,并建立和不斷完善 RegEx 規(guī)則,以便在訓練前從數據集的代碼中刪除諸如電子郵件地址、密鑰和 IP 地址等敏感信息。

為了讓開發(fā)者可以放心使用 SantaCoder 生成的代碼,BigCode 推出了Dataset Search搜索工具。

通過這個工具,開發(fā)者可以找出代碼的來源,以便在 SantaCoder 產生的代碼屬于某一個項目的情況下,用戶能夠遵守相應的許可要求。

此外,BigCode 還推出了「Am I in The Stack?」工具,開發(fā)者可以檢查自己名下的倉庫是否是訓練數據集的一部分,可以將自己的開源倉庫從數據集中刪除。

BigCode 目前已經在 Huggingface 網站中提供了 SantaCoder 演示。







審核編輯:劉清

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • JAVA語言
    +關注

    關注

    0

    文章

    138

    瀏覽量

    20697
  • javascript
    +關注

    關注

    0

    文章

    525

    瀏覽量

    54840
  • python
    +關注

    關注

    56

    文章

    4827

    瀏覽量

    86811
  • GPT
    GPT
    +關注

    關注

    0

    文章

    368

    瀏覽量

    16108

原文標題:BigCode開源輕量級語言模型,僅支持Python、JS和Java

文章出處:【微信號:OSC開源社區(qū),微信公眾號:OSC開源社區(qū)】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    輕量級Java表達式引擎aviator的基本使用

    aviator本來是一個輕量級、高性能的基于JVM的表達式引擎。不過從5.0.0版本開始,aviator升級成為了aviatorScript,成為一個高性能、輕量級寄宿于 JVM (包括 Android 平臺)之上的腳本語言
    發(fā)表于 09-13 09:42 ?1234次閱讀

    輕量級Agent平臺怎么測試?

    跨平臺的語言成功應用于嵌入式設備中,同時也方便了嵌入式環(huán)境下的輕量Agent(Lightweight Agent)的實現(xiàn)。本文在ARM嵌入式環(huán)境下測試輕量級Agent平臺。
    發(fā)表于 09-27 06:26

    輕量級的ui框架如何去制作

    原創(chuàng)分享:自制輕量級單片機UI框架框架元素用戶接口代碼開源平時??碿sdn,但是從來沒有自己寫過。正好這幾天需要用單片機做一個簡易的ui界面,于是自己寫了一個輕量級的ui框架。發(fā)個csdn分享給大家
    發(fā)表于 07-14 07:39

    后端選擇 java, 還是 python?

    限制。Java 語言在當今所有語言里面的排名是第一位。而且市面上關于 Java 的招聘崗位也非常多。但是這并不代表學習 Java 就一定好。
    發(fā)表于 09-26 14:07

    適用于Java的嵌入式腳本語言是什么

    /fakescript-java簡介fakescript是一款輕量級的嵌入式腳本語言,使用Java語言編寫,語法吸取自lua、golang、
    發(fā)表于 12-23 08:17

    Lite Actor:方舟Actor并發(fā)模型輕量級優(yōu)化

    設備的不斷增多,并發(fā)模型顯得舉足輕重,本期我們將為大家?guī)矸街劬幾g器對傳統(tǒng)Actor并發(fā)模型輕量級優(yōu)化。 一、什么是并發(fā)模型?在操作系統(tǒng)中,并發(fā)是任務在不影響最終執(zhí)行結果的情況下無序
    發(fā)表于 07-18 12:00

    最流行的編程語言java,python

    世界上最大的編程相關書籍出版商Packt Publishing進行的市場研究顯示,JavaPython是當今最流行的編程語言,Java流行程度位居第3。 該公司通過調查11000受訪
    發(fā)表于 09-26 10:22 ?0次下載
    最流行的編程<b class='flag-5'>語言</b><b class='flag-5'>java</b>,<b class='flag-5'>python</b>

    基于YOLO改進的輕量級交通標識檢測模型

    在車載邊緣計算單元中,由于其硬件設備的資源受限,開發(fā)適用于車載邊緣計算的輕量級、高效的交通標識檢測模型變得越來越迫切。文中提出了一種基于 Tiny YOLO改進的輕量級交通標識檢測模型
    發(fā)表于 04-19 15:01 ?12次下載
    基于YOLO改進的<b class='flag-5'>輕量級</b>交通標識檢測<b class='flag-5'>模型</b>

    一款適合初學者超輕量級C語言網絡庫—Dyad

    Dyad 是一個基于 C 語言的異步網絡庫,旨在輕量級、可移植和易用。它既可用于創(chuàng)建小型獨立服務器,也可用于為現(xiàn)有的項目提供網絡支持。
    的頭像 發(fā)表于 10-10 14:33 ?2542次閱讀
    一款適合初學者超<b class='flag-5'>輕量級</b>C<b class='flag-5'>語言</b>網絡庫—Dyad

    TinyDB輕量級數據庫有哪些特點呢

    TinyDB 是一個純 Python 編寫的輕量級數據庫,一共只有1800行代碼,沒有外部依賴項。
    的頭像 發(fā)表于 10-28 14:07 ?1975次閱讀

    一個純Python編寫的輕量級數據庫

    TinyDB 是一個純 Python 編寫的輕量級數據庫,一共只有1800行代碼,沒有外部依賴項。
    的頭像 發(fā)表于 02-24 10:32 ?1254次閱讀

    谷歌發(fā)布輕量級開源人工智能模型Gemma

    谷歌近日宣布推出開源人工智能(AI)模型系列Gemma,旨在為開發(fā)人員和研究人員提供一個負責任的AI構建平臺。這一舉措標志著自2022年OpenAI的ChatGPT引領AI聊天機器人熱潮后,谷歌首次發(fā)布重要的開源大型
    的頭像 發(fā)表于 02-23 11:38 ?1199次閱讀

    百度智能云推出全新輕量級模型

    在近日舉辦的百度智能云千帆產品發(fā)布會上,三款全新的輕量級模型——ERNIE Speed、ERNIE Lite以及ERNIE Tiny,引起了業(yè)界的廣泛關注。相較于傳統(tǒng)的千億級別參數大模型,這些
    的頭像 發(fā)表于 03-22 10:28 ?989次閱讀

    開放原子開源大賽助力輕量級語言模型應用落地

    “Intel借助開源大賽在全國的影響力,吸引更多開發(fā)者加入大語言模型及其在人工智能領域的創(chuàng)新應用?!必撠烞igDL-LLM賽題運營的Intel工作人員表示。
    的頭像 發(fā)表于 09-24 10:38 ?1021次閱讀

    對比PythonJava編程語言

    PythonJava都是目前非常流行的編程語言,它們各有其獨特的優(yōu)勢和適用場景。以下是對這兩種編程語言的對比: 一、語法和易用性 Python
    的頭像 發(fā)表于 11-15 09:31 ?1120次閱讀