一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

標記訓練集中的數(shù)據(jù)樣本是開發(fā)機器學習應用的最大瓶頸之一

jmiy_worldofai ? 來源:lp ? 2019-04-02 16:24 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

數(shù)據(jù)集就是機器學習行業(yè)的石油,強大的模型需要含有大量樣本的數(shù)據(jù)集作為基礎(chǔ)。而標記訓練集中的數(shù)據(jù)樣本是開發(fā)機器學習應用的最大瓶頸之一。

最近,谷歌與斯坦福大學、布朗大學一起,研究如何快速標記大型數(shù)據(jù)集,將整個組織的資源用作分類任務(wù)的弱監(jiān)督資源,使機器學習的開發(fā)時間和成本降低一個數(shù)量級。

谷歌在論文中表示,這種方法能讓工程師能夠在不到30分鐘的時間內(nèi)對數(shù)百萬個樣本執(zhí)行弱監(jiān)督策略。

他們使用一種Snorkel Drybell系統(tǒng),讓開源Snorkel框架適應各種組織知識資源,生成Web規(guī)模機器學習模型的訓練數(shù)據(jù)。

Snorkel是由斯坦福大學在2017年開發(fā)的系統(tǒng),它可以在弱監(jiān)督條件下快速創(chuàng)建訓練數(shù)據(jù)集,該項目已經(jīng)在GitHub上開源。而Snorkel Drybell的目標是在工業(yè)規(guī)模上部署弱監(jiān)督學習。

而且用這種方法開發(fā)的分類器質(zhì)量與手工標記樣本進行訓練的分類器效果相當,把弱監(jiān)督分類器的平均性能提高了52%。

什么是Snorkel

Snorkel是斯坦福大學在2016年為許多弱監(jiān)督學習開發(fā)的一個通用框架,由這種方法生成的標簽可用于訓練任意模型。

已經(jīng)有人將Snorkel用于處理圖像數(shù)據(jù)、自然語言監(jiān)督、處理半結(jié)構(gòu)化數(shù)據(jù)、自動生成訓練集等具體用途。

原理

與手工標注訓練數(shù)據(jù)不同,Snorkel DryBell支持編寫標記函數(shù),以編程方式標記訓練數(shù)據(jù)。

過去的方法中,標記函數(shù)只是以編程方式標記數(shù)據(jù)的腳本,它產(chǎn)生的標簽是帶有噪聲的。

為了解決噪聲等問題,Supert Drybell使用生成建模技術(shù),以一種可證明一致的方式自動估計標記函數(shù)的準確性和相關(guān)性,而無需任何基本事實作為訓練標簽。然后用這種方法對每個數(shù)據(jù)點的輸出進行重新加權(quán),并組合成一個概率標簽。

使用多種知識來源作為弱監(jiān)督

Snorkel Drybell先用多種知識來源作為弱監(jiān)督,在基于MapReduce模板的pipeline中編寫標記函數(shù),每個標記函數(shù)都接受一個數(shù)據(jù)點生成的概率標簽,并選擇返回None(無標簽)或輸出標簽。

這一步生成的標簽帶有大量噪聲,甚至相互沖突,還行需要進一步的清洗才能用到最終的訓練集中。

結(jié)合和重新利用現(xiàn)有資源對準確度建模

為了處理這些噪聲標簽,Snorkel DryBell將標記函數(shù)的輸出組合成對每個數(shù)據(jù)點的訓練標簽置信度加權(quán)。這一步的難點在于,必須在沒有任何真實標簽的情況下完成。

研究人員使用生成建模技術(shù),僅使用未標記的數(shù)據(jù)來學習每個標記函數(shù)的準確性。通過標簽函數(shù)輸出之間的一致性矩陣來學習打標簽是否準確。

在Snorkel DryBell中,研究人員還實現(xiàn)了建模方法一種更快、無采樣的版本,并在TensorFlow中實現(xiàn),以處理Web規(guī)模的數(shù)據(jù)。

通過在Snorkel DryBell中使用此程序組合和建模標簽函數(shù)的輸出,能夠生成高質(zhì)量的訓練標簽。與兩個分別有1.2萬和8萬個手工標記訓練數(shù)據(jù)集比較,由Snorkel DryBell標記的數(shù)據(jù)集訓練出的模型實現(xiàn)了一樣的預測準確度。

將不可服務(wù)的知識遷移到可服務(wù)的模型

在許多情況下,可服務(wù)特征(可用于生產(chǎn))和不可服務(wù)特征(太慢或太貴而無法用于生產(chǎn))之間也有重要區(qū)別。這些不可服務(wù)的特征可能具有非常豐富的信號,但是有個問題是如何使用它們來訓練,或者是幫助能在生產(chǎn)中部署的可服務(wù)模型呢?

在Snorkel DryBell中,用戶發(fā)現(xiàn)可以在一個不可服務(wù)的特征集上編寫標簽函數(shù),然后使用Snorkel DryBell輸出的訓練標簽來訓練在不同的、可服務(wù)的特征集上定義的模型。

這種跨特征轉(zhuǎn)移將基準數(shù)據(jù)集的性能平均提高了52%。

這種方法可以被看作是一種新型的遷移學習,但不是在不同的數(shù)據(jù)集之間轉(zhuǎn)移模型,而是在不同的特征集之間轉(zhuǎn)移領(lǐng)域知識。它可以使用速度太慢、私有或其他不適合部署的資源,在廉價、實時特征上訓練可服務(wù)的模型。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 函數(shù)
    +關(guān)注

    關(guān)注

    3

    文章

    4381

    瀏覽量

    64890
  • 機器學習
    +關(guān)注

    關(guān)注

    66

    文章

    8503

    瀏覽量

    134622
  • 數(shù)據(jù)集
    +關(guān)注

    關(guān)注

    4

    文章

    1224

    瀏覽量

    25448

原文標題:告別數(shù)據(jù)集資源匱乏,谷歌與斯坦福大學用弱監(jiān)督學習給訓練集打標簽

文章出處:【微信號:worldofai,微信公眾號:worldofai】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    嵌入式AI技術(shù)漫談:怎么為訓練AI模型采集樣本數(shù)據(jù)

    Q 需要為嵌入式AI模型提供多少樣本數(shù)據(jù)? 我在向客戶介紹如何使用AI方法設(shè)計款客戶產(chǎn)品時,客戶理解,AI嵌入式項目的開發(fā)都是圍繞數(shù)據(jù)展開的,如此,我經(jīng)常會被問到這樣的問題:客戶的工
    的頭像 發(fā)表于 06-11 16:30 ?599次閱讀

    【「# ROS 2智能機器開發(fā)實踐」閱讀體驗】機器人入門的引路書

    的限制和調(diào)控) 本書還有很多前沿技術(shù)項目的擴展 比如神經(jīng)網(wǎng)絡(luò)識別例程,機器學習圖像識別的原理,yolo圖像追蹤的原理 機器學習訓練三大點:
    發(fā)表于 04-30 01:05

    海思SD3403邊緣計算AI數(shù)據(jù)訓練概述

    AI數(shù)據(jù)訓練:基于用戶特定應用場景,用戶采集照片或視頻,通過AI數(shù)據(jù)訓練工程師**(用戶公司****員工)** ,進行特征標定后,將標定好的訓練樣本
    發(fā)表于 04-28 11:11

    數(shù)據(jù)標注服務(wù)—奠定大模型訓練數(shù)據(jù)基石

    數(shù)據(jù)標注是大模型訓練過程中不可或缺的基礎(chǔ)環(huán)節(jié),其質(zhì)量直接影響著模型的性能表現(xiàn)。在大模型訓練中,數(shù)據(jù)標注承擔著將原始數(shù)據(jù)轉(zhuǎn)化為
    的頭像 發(fā)表于 03-21 10:30 ?799次閱讀

    標貝數(shù)據(jù)標注服務(wù):奠定大模型訓練數(shù)據(jù)基石

    數(shù)據(jù)標注是大模型訓練過程中不可或缺的基礎(chǔ)環(huán)節(jié),其質(zhì)量直接影響著模型的性能表現(xiàn)。在大模型訓練中,數(shù)據(jù)標注承擔著將原始數(shù)據(jù)轉(zhuǎn)化為
    的頭像 發(fā)表于 03-21 10:27 ?568次閱讀
    標貝<b class='flag-5'>數(shù)據(jù)</b>標注服務(wù):奠定大模型<b class='flag-5'>訓練</b>的<b class='flag-5'>數(shù)據(jù)</b>基石

    《具身智能機器人系統(tǒng)》第10-13章閱讀心得之具身智能機器人計算挑戰(zhàn)

    章深入分析了DNN的安全威脅。逃逸攻擊通過向輸入數(shù)據(jù)添加人眼難以察覺的擾動,誘導模型做出錯誤判斷。投毒攻擊則通過污染訓練數(shù)據(jù)集,在模型學習階段植入后門。探索攻擊更具隱蔽性,它利用模型決
    發(fā)表于 01-04 01:15

    傳統(tǒng)機器學習方法和應用指導

    用于開發(fā)生物學數(shù)據(jù)機器學習方法。盡管深度學習般指神經(jīng)網(wǎng)絡(luò)算法)是
    的頭像 發(fā)表于 12-30 09:16 ?1191次閱讀
    傳統(tǒng)<b class='flag-5'>機器</b><b class='flag-5'>學習</b>方法和應用指導

    【「具身智能機器人系統(tǒng)」閱讀體驗】1.全書概覽與第學習

    講解如何構(gòu)造具身智能基礎(chǔ)模型的方法和步驟,包括數(shù)據(jù)采集、預處理、模型訓練和評估等。 在第四部分,介紹了具身智能機器人的計算挑戰(zhàn),包括計算加速、算法安全性和系統(tǒng)可靠性等內(nèi)容。 最后,在第五部分介紹了
    發(fā)表于 12-27 14:50

    《具身智能機器人系統(tǒng)》第7-9章閱讀心得之具身智能機器人與大模型

    和經(jīng)驗積累,使機器人能夠自主發(fā)現(xiàn)工藝規(guī)律,優(yōu)化作業(yè)參數(shù)。家庭服務(wù)機器人則采用混合任務(wù)規(guī)劃策略:將預訓練的基礎(chǔ)技能與實時規(guī)劃相結(jié)合,靈活應對開放環(huán)境中的各種情況。 第9章深入探討了元學習
    發(fā)表于 12-24 15:03

    【「具身智能機器人系統(tǒng)」閱讀體驗】+數(shù)據(jù)在具身人工智能中的價值

    嵌入式人工智能(EAI)將人工智能集成到機器人等物理實體中,使它們能夠感知、學習環(huán)境并與之動態(tài)交互。這種能力使此類機器人能夠在人類社會中有效地提供商品及服務(wù)。 數(shù)據(jù)
    發(fā)表于 12-24 00:33

    中國聯(lián)通實現(xiàn)30TB樣本數(shù)據(jù)跨城存算分離訓練

    近日,中國聯(lián)通研究院攜手浙江聯(lián)通與聯(lián)通服裝制造軍團,針對AI敏感數(shù)據(jù)的本地存儲與異地訓練需求,共同探索并成功實施了項創(chuàng)新的業(yè)務(wù)模式。這創(chuàng)新實踐在杭州與金華兩地間,首次實現(xiàn)了30TB
    的頭像 發(fā)表于 12-13 14:06 ?711次閱讀

    eda在機器學習中的應用

    機器學習項目中,數(shù)據(jù)預處理和理解是成功構(gòu)建模型的關(guān)鍵。探索性數(shù)據(jù)分析(EDA)是這過程中不可或缺的
    的頭像 發(fā)表于 11-13 10:42 ?903次閱讀

    PyTorch 數(shù)據(jù)加載與處理方法

    PyTorch 是個流行的開源機器學習庫,它提供了強大的工具來構(gòu)建和訓練深度學習模型。在構(gòu)建模型之前,
    的頭像 發(fā)表于 11-05 17:37 ?937次閱讀

    端到端InfiniBand網(wǎng)絡(luò)解決LLM訓練瓶頸

    的,這需要大量的計算資源和高速數(shù)據(jù)傳輸網(wǎng)絡(luò)。端到端InfiniBand(IB)網(wǎng)絡(luò)作為高性能計算和AI模型訓練的理想選擇,發(fā)揮著重要作用。在本文中,我們將深入探討大型語言模型(LLM)訓練的概念,并探索端到端InfiniBand
    的頭像 發(fā)表于 10-23 11:26 ?2214次閱讀
    端到端InfiniBand網(wǎng)絡(luò)解決LLM<b class='flag-5'>訓練</b><b class='flag-5'>瓶頸</b>

    直播預約 |數(shù)據(jù)智能系列講座第4期:預訓練的基礎(chǔ)模型下的持續(xù)學習

    鷺島論壇數(shù)據(jù)智能系列講座第4期「預訓練的基礎(chǔ)模型下的持續(xù)學習」10月30日(周三)20:00精彩開播期待與您云相聚,共襄學術(shù)盛宴!|直播信息報告題目預訓練的基礎(chǔ)模型下的持續(xù)
    的頭像 發(fā)表于 10-18 08:09 ?595次閱讀
    直播預約 |<b class='flag-5'>數(shù)據(jù)</b>智能系列講座第4期:預<b class='flag-5'>訓練</b>的基礎(chǔ)模型下的持續(xù)<b class='flag-5'>學習</b>