一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

ChatGPT背后的數(shù)據(jù)標(biāo)注,工作量大,報(bào)酬低!

Carol Li ? 來(lái)源:電子發(fā)燒友網(wǎng) ? 作者:李彎彎 ? 2023-02-17 09:17 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

電子發(fā)燒友網(wǎng)報(bào)道(文/李彎彎)最近爆火的ChatGPT有多強(qiáng)大,想必大家都已經(jīng)知曉,它幾乎可以生成任何形式的文本,從莎士比亞的十四行詩(shī),到用5歲孩子都能理解的語(yǔ)言描述,以及復(fù)雜數(shù)學(xué)問(wèn)題,也因此月活躍用戶在短短上線兩個(gè)月就達(dá)到1億。

而強(qiáng)大的ChatGPT背后,離不開一項(xiàng)重要的工作,那就是數(shù)據(jù)標(biāo)注。據(jù)美媒報(bào)道,為了訓(xùn)練ChatGPT,OpenAI的合作伙伴Sama雇傭了肯尼亞、烏干達(dá)和印度的外包員工,對(duì)龐大的數(shù)據(jù)庫(kù)手動(dòng)進(jìn)行數(shù)據(jù)標(biāo)注。


什么是數(shù)據(jù)標(biāo)注

事實(shí)上,人工智能是一種可以根據(jù)人類需求做出合理行為的計(jì)算機(jī)程序,要想實(shí)現(xiàn)人工智能,就需要把人類的理解能力和判斷能力教給計(jì)算機(jī),讓計(jì)算機(jī)擁有類似人類的識(shí)別能力。在這一過(guò)程中,需要計(jì)算機(jī)模仿人類進(jìn)行經(jīng)驗(yàn)學(xué)習(xí)。

而數(shù)據(jù)標(biāo)注就是把需要計(jì)算機(jī)進(jìn)行機(jī)器學(xué)習(xí)的的圖片、視頻等初級(jí)數(shù)據(jù)打上標(biāo)簽,讓計(jì)算機(jī)不斷的識(shí)別這些初級(jí)數(shù)據(jù)的特征,最終可以讓計(jì)算機(jī)能夠自主的識(shí)別。

這里涉及到幾個(gè)概念:1、數(shù)據(jù)標(biāo)注,簡(jiǎn)單來(lái)說(shuō),就是對(duì)文本、圖像、音頻、視頻等數(shù)據(jù)進(jìn)行高質(zhì)量、高精度的處理打標(biāo)簽,來(lái)滿足機(jī)器訓(xùn)練學(xué)習(xí)的需求。2、標(biāo)簽,就是對(duì)需要機(jī)器學(xué)習(xí)的數(shù)據(jù)進(jìn)行標(biāo)識(shí)特征、類別和屬性等,用于建立數(shù)據(jù)和機(jī)器訓(xùn)練學(xué)習(xí)的可讀數(shù)據(jù)編碼間的聯(lián)系。3、數(shù)據(jù)標(biāo)注員,就是負(fù)責(zé)對(duì)文本、圖像、音頻、視頻等數(shù)據(jù)進(jìn)行高質(zhì)量、高精度的處理打標(biāo)簽的工作人員。

計(jì)算機(jī)特征數(shù)據(jù)主要分為圖像數(shù)據(jù)、語(yǔ)音數(shù)據(jù)、文本數(shù)據(jù)等。在自然語(yǔ)言處理的需求中,文本數(shù)據(jù)標(biāo)注是關(guān)鍵環(huán)節(jié),數(shù)據(jù)標(biāo)注員需要通過(guò)對(duì)語(yǔ)句分詞的標(biāo)注、語(yǔ)義判斷的標(biāo)注、情感標(biāo)注、多音字標(biāo)注等,為人工智能機(jī)器學(xué)習(xí)提供高準(zhǔn)確率的文本語(yǔ)料。

數(shù)據(jù)標(biāo)注的流程,首先是從數(shù)據(jù)采集開始,由于新采集的數(shù)據(jù)是非結(jié)構(gòu)化的,有些數(shù)據(jù)不完整,還有不一致、有雜音噪聲的數(shù)據(jù),需要通過(guò)數(shù)據(jù)清洗,對(duì)采集的數(shù)據(jù)進(jìn)行篩選、去重、查缺補(bǔ)漏、平滑噪音等操作,將數(shù)據(jù)清理成適合標(biāo)注的格式。

接著,數(shù)據(jù)經(jīng)過(guò)清洗后,就可以進(jìn)入數(shù)據(jù)標(biāo)注的核心環(huán)節(jié)。在現(xiàn)實(shí)的標(biāo)注工作中,數(shù)據(jù)管理員會(huì)將數(shù)據(jù)根據(jù)不同的需求,將待標(biāo)注的數(shù)據(jù)分為不同的數(shù)據(jù)包任務(wù),每一個(gè)數(shù)據(jù)任務(wù)都會(huì)有不同的規(guī)范和標(biāo)注形式要求,然后將標(biāo)注任務(wù)分配給多個(gè)標(biāo)注員進(jìn)行標(biāo)注工作。

最后,為了提高數(shù)據(jù)輸出的正確率,標(biāo)注員完成標(biāo)注工作后,需要質(zhì)檢師對(duì)數(shù)據(jù)進(jìn)行檢驗(yàn),最終通過(guò)質(zhì)檢環(huán)節(jié)的數(shù)據(jù)才是可用于訓(xùn)練學(xué)習(xí)的數(shù)據(jù)。


龐大的數(shù)據(jù)標(biāo)注工作,和低水平的報(bào)酬

從ChatGPT來(lái)看,雖然對(duì)于ChatGPT最后的強(qiáng)大能力來(lái)說(shuō),數(shù)據(jù)標(biāo)注是重要的一環(huán),然而這卻是一項(xiàng)工作量及其龐大,報(bào)酬卻并不高的工作。

雖然ChatGPT的前身GPT-3已經(jīng)展示出非常強(qiáng)大的語(yǔ)句串聯(lián)的能力。然而,當(dāng)時(shí)的GPT-3卻存在很多弊端,例如內(nèi)容容易出現(xiàn)暴力、性別歧視等言論。之所以會(huì)出現(xiàn)這樣的不足之處,是因?yàn)锳I工具從互聯(lián)網(wǎng)抓取了數(shù)千億個(gè)單詞來(lái)訓(xùn)練。由于互聯(lián)網(wǎng)的詞匯有不少帶有偏見及負(fù)面的詞匯,因此單純憑借學(xué)習(xí)能力無(wú)法來(lái)清除這些訓(xùn)練數(shù)據(jù)。

為了獲得這些有害內(nèi)容的標(biāo)簽,OpenAI從2021年11月開始便向一家外包公司發(fā)送了數(shù)萬(wàn)條文本片段。這家公司便是Sama,Sama總部位于美國(guó)舊金山,該公司雇傭了肯尼亞、烏干達(dá)和印度的外包員工。大約30多名工作人員被分成三個(gè)小組,每個(gè)小組都專注于一個(gè)主題。據(jù)該公司的三名員工表示,他們每9個(gè)小時(shí)要閱讀和標(biāo)注150~200段文字,這些段落的范圍從100個(gè)單詞到1000多個(gè)單詞不等。

薪酬方面,Sama為OpenAI雇傭的數(shù)據(jù)標(biāo)簽員工支付的時(shí)薪在1.32美元~2美元之間(約8.99元~13.62元),具體取決于資歷和表現(xiàn)。據(jù)Sama員工透露,“代理商”是三個(gè)小組中最初級(jí)的數(shù)據(jù)標(biāo)簽人員,他們的基本工資為每月2.1萬(wàn)肯尼亞先令(約170美元或者約1158元)。此外,他們每月還能獲得約70美元的獎(jiǎng)金,如果達(dá)到準(zhǔn)確性和速度等關(guān)鍵績(jī)效指標(biāo),他們還可以獲得傭金。

按此計(jì)算,一名每天工作9小時(shí)的員工預(yù)計(jì)稅后時(shí)薪至少能拿1.32美元,如果超額完成所有目標(biāo),則最高可達(dá)到1.44美元。質(zhì)量分析師是資歷更深的數(shù)據(jù)標(biāo)簽員工,他們的工作是檢查“代理商”的工作,如果他們達(dá)到了所有績(jī)效目標(biāo),時(shí)薪可以拿到2美元。

OpenAI發(fā)言人曾在一份聲明中證實(shí),Sama在肯尼亞的員工為該公司正在開發(fā)的監(jiān)測(cè)有害內(nèi)容的工具作出了貢獻(xiàn),該工具最終被內(nèi)置到ChatGPT中。


小結(jié)

隨著ChatGPT的爆火,人工智能走進(jìn)了更多人的視野。然而從目前的情況來(lái)看,人們印象中的人工智能仍然是很高端的事物,只有科技、互聯(lián)網(wǎng)巨頭企業(yè)及專業(yè)人士才能涉足的領(lǐng)域。然而人工智能產(chǎn)業(yè)鏈涉及面廣泛,其中就包括數(shù)據(jù)標(biāo)注??梢钥吹?,人工智能的存在和實(shí)現(xiàn),不僅僅是解放人們的雙手,同時(shí)從這個(gè)層面來(lái)看,它對(duì)勞動(dòng)力的需求也是龐大的。


聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • ChatGPT
    +關(guān)注

    關(guān)注

    29

    文章

    1589

    瀏覽量

    8947
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    數(shù)據(jù)標(biāo)注與大模型的雙向賦能:效率與性能的躍升

    ??在人工智能蓬勃發(fā)展的時(shí)代,大模型憑借其強(qiáng)大的學(xué)習(xí)與泛化能力,已成為眾多領(lǐng)域創(chuàng)新變革的核心驅(qū)動(dòng)力。而數(shù)據(jù)標(biāo)注作為大模型訓(xùn)練的基石,為大模型性能提升注入關(guān)鍵動(dòng)力,是模型不可或缺的“養(yǎng)料。大模型則憑借
    的頭像 發(fā)表于 06-04 17:15 ?564次閱讀
    <b class='flag-5'>數(shù)據(jù)</b><b class='flag-5'>標(biāo)注</b>與大模型的雙向賦能:效率與性能的躍升

    東軟集團(tuán)入選國(guó)家數(shù)據(jù)數(shù)據(jù)標(biāo)注優(yōu)秀案例

    近日,東軟飛標(biāo)醫(yī)學(xué)影像標(biāo)注平臺(tái)在國(guó)家數(shù)據(jù)局發(fā)布數(shù)據(jù)標(biāo)注優(yōu)秀案例集名單中排名第一(案例名稱“多模態(tài)醫(yī)學(xué)影像智能數(shù)據(jù)
    的頭像 發(fā)表于 05-09 14:37 ?389次閱讀

    標(biāo)貝科技“4D-BEV上億點(diǎn)云標(biāo)注系統(tǒng)”入選國(guó)家數(shù)據(jù)局首批數(shù)據(jù)標(biāo)注優(yōu)秀案例

    4月29日,作為第八屆數(shù)字中國(guó)建設(shè)峰會(huì)的重要組成部分,由國(guó)家數(shù)據(jù)局主辦的高質(zhì)量數(shù)據(jù)集和數(shù)據(jù)標(biāo)注主題交流活動(dòng)在福州市數(shù)字中國(guó)會(huì)展中心舉行。會(huì)議交流活動(dòng)聚焦“推動(dòng)高質(zhì)量
    的頭像 發(fā)表于 04-30 14:38 ?189次閱讀
    標(biāo)貝科技“4D-BEV上億點(diǎn)云<b class='flag-5'>標(biāo)注</b>系統(tǒng)”入選國(guó)家<b class='flag-5'>數(shù)據(jù)</b>局首批<b class='flag-5'>數(shù)據(jù)</b><b class='flag-5'>標(biāo)注</b>優(yōu)秀案例

    數(shù)據(jù)標(biāo)注服務(wù)—奠定大模型訓(xùn)練的數(shù)據(jù)基石

    數(shù)據(jù)標(biāo)注是大模型訓(xùn)練過(guò)程中不可或缺的基礎(chǔ)環(huán)節(jié),其質(zhì)量直接影響著模型的性能表現(xiàn)。在大模型訓(xùn)練中,數(shù)據(jù)標(biāo)注承擔(dān)著將原始數(shù)據(jù)轉(zhuǎn)化為機(jī)器可理解、可學(xué)
    的頭像 發(fā)表于 03-21 10:30 ?600次閱讀

    標(biāo)貝數(shù)據(jù)標(biāo)注服務(wù):奠定大模型訓(xùn)練的數(shù)據(jù)基石

    數(shù)據(jù)標(biāo)注是大模型訓(xùn)練過(guò)程中不可或缺的基礎(chǔ)環(huán)節(jié),其質(zhì)量直接影響著模型的性能表現(xiàn)。在大模型訓(xùn)練中,數(shù)據(jù)標(biāo)注承擔(dān)著將原始數(shù)據(jù)轉(zhuǎn)化為機(jī)器可理解、可學(xué)
    的頭像 發(fā)表于 03-21 10:27 ?511次閱讀
    標(biāo)貝<b class='flag-5'>數(shù)據(jù)</b><b class='flag-5'>標(biāo)注</b>服務(wù):奠定大模型訓(xùn)練的<b class='flag-5'>數(shù)據(jù)</b>基石

    自動(dòng)化標(biāo)注技術(shù)推動(dòng)AI數(shù)據(jù)訓(xùn)練革新

    標(biāo)貝自動(dòng)化數(shù)據(jù)標(biāo)注平臺(tái)在全棧數(shù)據(jù)標(biāo)注場(chǎng)景式中搭載了大模型預(yù)標(biāo)注和自動(dòng)化標(biāo)注能力,并應(yīng)用于3D點(diǎn)云
    的頭像 發(fā)表于 03-14 16:46 ?636次閱讀

    標(biāo)貝自動(dòng)化數(shù)據(jù)標(biāo)注平臺(tái)推動(dòng)AI數(shù)據(jù)訓(xùn)練革新

    標(biāo)貝自動(dòng)化數(shù)據(jù)標(biāo)注平臺(tái)在全棧數(shù)據(jù)標(biāo)注場(chǎng)景式中搭載了大模型預(yù)標(biāo)注和自動(dòng)化標(biāo)注能力,并應(yīng)用于3D點(diǎn)云
    的頭像 發(fā)表于 03-14 16:42 ?857次閱讀
    標(biāo)貝自動(dòng)化<b class='flag-5'>數(shù)據(jù)</b><b class='flag-5'>標(biāo)注</b>平臺(tái)推動(dòng)AI<b class='flag-5'>數(shù)據(jù)</b>訓(xùn)練革新

    AI自動(dòng)圖像標(biāo)注工具SpeedDP將是數(shù)據(jù)標(biāo)注行業(yè)發(fā)展的重要引擎

    AI大浪潮下,許多企業(yè)都在不斷借助AI來(lái)提升自己的行業(yè)競(jìng)爭(zhēng)力,數(shù)據(jù)標(biāo)注企業(yè)也不例外,傳統(tǒng)人工標(biāo)注效率不足的弊端困擾了多年,如今新的“引擎”就在眼前,他們當(dāng)然不會(huì)放過(guò)這個(gè)機(jī)會(huì)。針對(duì)這樣的需求,慧視光電
    的頭像 發(fā)表于 01-02 17:53 ?736次閱讀
    AI自動(dòng)圖像<b class='flag-5'>標(biāo)注</b>工具SpeedDP將是<b class='flag-5'>數(shù)據(jù)</b><b class='flag-5'>標(biāo)注</b>行業(yè)發(fā)展的重要引擎

    標(biāo)貝數(shù)據(jù)標(biāo)注在智能駕駛訓(xùn)練中的落地案例

    標(biāo)貝科技深耕AI數(shù)據(jù)服務(wù)多年,在無(wú)人駕駛、自動(dòng)駕駛等智能駕駛領(lǐng)域擁有豐富的合作案例。多次采用點(diǎn)云標(biāo)注以及3D&2D融合等標(biāo)注方式為智能駕駛領(lǐng)域客戶提供環(huán)境感知、決策策劃、車道線標(biāo)注、障
    的頭像 發(fā)表于 12-24 15:17 ?1444次閱讀
    標(biāo)貝<b class='flag-5'>數(shù)據(jù)</b><b class='flag-5'>標(biāo)注</b>在智能駕駛訓(xùn)練中的落地案例

    標(biāo)貝數(shù)據(jù)標(biāo)注案例分享:車載語(yǔ)音系統(tǒng)數(shù)據(jù)標(biāo)注

    的作用。一般來(lái)說(shuō),車載語(yǔ)音識(shí)別系統(tǒng)主要分為前端和后端兩個(gè)部分,本文將針對(duì)前端語(yǔ)音信號(hào)數(shù)據(jù)采集標(biāo)注進(jìn)行實(shí)例講解。
    的頭像 發(fā)表于 12-24 14:24 ?538次閱讀
    標(biāo)貝<b class='flag-5'>數(shù)據(jù)</b><b class='flag-5'>標(biāo)注</b>案例分享:車載語(yǔ)音系統(tǒng)<b class='flag-5'>數(shù)據(jù)</b><b class='flag-5'>標(biāo)注</b>

    標(biāo)貝科技:自動(dòng)駕駛中的數(shù)據(jù)標(biāo)注類別分享

    的必要條件,數(shù)據(jù)采集、數(shù)據(jù)標(biāo)注服務(wù)已成為支撐自動(dòng)駕駛熱潮必不可少的一環(huán)。本文將以數(shù)據(jù)標(biāo)注的視角,通過(guò)標(biāo)貝科技自研平臺(tái)標(biāo)貝
    的頭像 發(fā)表于 11-22 15:07 ?1909次閱讀
    標(biāo)貝科技:自動(dòng)駕駛中的<b class='flag-5'>數(shù)據(jù)</b><b class='flag-5'>標(biāo)注</b>類別分享

    標(biāo)貝科技:自動(dòng)駕駛中的數(shù)據(jù)標(biāo)注類別分享

    的必要條件,數(shù)據(jù)采集、數(shù)據(jù)標(biāo)注服務(wù)已成為支撐自動(dòng)駕駛熱潮必不可少的一環(huán)。本文將以數(shù)據(jù)標(biāo)注的視角,通過(guò)標(biāo)貝科技自研平臺(tái)標(biāo)貝
    的頭像 發(fā)表于 11-22 14:58 ?3555次閱讀
    標(biāo)貝科技:自動(dòng)駕駛中的<b class='flag-5'>數(shù)據(jù)</b><b class='flag-5'>標(biāo)注</b>類別分享

    工具型AI標(biāo)注平臺(tái)SpeedDP工作流程是怎樣的?

    SpeedDP作為一個(gè)工具型AI平臺(tái),它能提供從數(shù)據(jù)標(biāo)注、模型訓(xùn)練、測(cè)試驗(yàn)證到RockChip嵌入式硬件平臺(tái)模型部署的可視化AI開發(fā)功能。平臺(tái)所需算法并不是固定的,使用者可以根據(jù)自身實(shí)際應(yīng)用場(chǎng)景進(jìn)行
    的頭像 發(fā)表于 11-19 01:02 ?888次閱讀
    工具型AI<b class='flag-5'>標(biāo)注</b>平臺(tái)SpeedDP<b class='flag-5'>工作</b>流程是怎樣的?

    ChatGPT背后的AI背景、技術(shù)門道和商業(yè)應(yīng)用

    作者:京東科技 李俊兵 各位看官好,我是球神(江湖代號(hào))。 自去年11月30日ChatGPT問(wèn)世以來(lái),迅速爆火出圈。 起初我依然以為這是和當(dāng)年Transformer, Bert一樣的“熱點(diǎn)”模型
    的頭像 發(fā)表于 10-18 15:42 ?3170次閱讀
    <b class='flag-5'>ChatGPT</b><b class='flag-5'>背后</b>的AI背景、技術(shù)門道和商業(yè)應(yīng)用

    基于FPA的軟件工作量綜合評(píng)估研究與實(shí)踐

    在軟件工程監(jiān)理項(xiàng)目中如何對(duì)軟件開發(fā)系統(tǒng)進(jìn)行工作量評(píng)估,如何在實(shí)施過(guò)程中對(duì)承建單位已完成的工作量進(jìn)行審核是實(shí)施信息化項(xiàng)目的難題。本文在分析專家經(jīng)驗(yàn)評(píng)估法、FPA功能點(diǎn)分析法等方法的基礎(chǔ)上,給出了一種
    發(fā)表于 10-15 10:45 ?0次下載