數(shù)據(jù)集就是機器學習行業(yè)的石油,強大的模型需要含有大量樣本的數(shù)據(jù)集作為基礎(chǔ)。而標記訓練集中的數(shù)據(jù)樣本是開發(fā)機器學習應用的最大瓶頸之一。
最近,谷歌與斯坦福大學、布朗大學一起,研究如何快速標記大型數(shù)據(jù)集,將整個組織的資源用作分類任務(wù)的弱監(jiān)督資源,使機器學習的開發(fā)時間和成本降低一個數(shù)量級。
谷歌在論文中表示,這種方法能讓工程師能夠在不到30分鐘的時間內(nèi)對數(shù)百萬個樣本執(zhí)行弱監(jiān)督策略。
他們使用一種Snorkel Drybell系統(tǒng),讓開源Snorkel框架適應各種組織知識資源,生成Web規(guī)模機器學習模型的訓練數(shù)據(jù)。
Snorkel是由斯坦福大學在2017年開發(fā)的系統(tǒng),它可以在弱監(jiān)督條件下快速創(chuàng)建訓練數(shù)據(jù)集,該項目已經(jīng)在GitHub上開源。而Snorkel Drybell的目標是在工業(yè)規(guī)模上部署弱監(jiān)督學習。
而且用這種方法開發(fā)的分類器質(zhì)量與手工標記樣本進行訓練的分類器效果相當,把弱監(jiān)督分類器的平均性能提高了52%。
什么是Snorkel
Snorkel是斯坦福大學在2016年為許多弱監(jiān)督學習開發(fā)的一個通用框架,由這種方法生成的標簽可用于訓練任意模型。
已經(jīng)有人將Snorkel用于處理圖像數(shù)據(jù)、自然語言監(jiān)督、處理半結(jié)構(gòu)化數(shù)據(jù)、自動生成訓練集等具體用途。
原理
與手工標注訓練數(shù)據(jù)不同,Snorkel DryBell支持編寫標記函數(shù),以編程方式標記訓練數(shù)據(jù)。
過去的方法中,標記函數(shù)只是以編程方式標記數(shù)據(jù)的腳本,它產(chǎn)生的標簽是帶有噪聲的。
為了解決噪聲等問題,Supert Drybell使用生成建模技術(shù),以一種可證明一致的方式自動估計標記函數(shù)的準確性和相關(guān)性,而無需任何基本事實作為訓練標簽。然后用這種方法對每個數(shù)據(jù)點的輸出進行重新加權(quán),并組合成一個概率標簽。
使用多種知識來源作為弱監(jiān)督
Snorkel Drybell先用多種知識來源作為弱監(jiān)督,在基于MapReduce模板的pipeline中編寫標記函數(shù),每個標記函數(shù)都接受一個數(shù)據(jù)點生成的概率標簽,并選擇返回None(無標簽)或輸出標簽。
這一步生成的標簽帶有大量噪聲,甚至相互沖突,還行需要進一步的清洗才能用到最終的訓練集中。
結(jié)合和重新利用現(xiàn)有資源對準確度建模
為了處理這些噪聲標簽,Snorkel DryBell將標記函數(shù)的輸出組合成對每個數(shù)據(jù)點的訓練標簽置信度加權(quán)。這一步的難點在于,必須在沒有任何真實標簽的情況下完成。
研究人員使用生成建模技術(shù),僅使用未標記的數(shù)據(jù)來學習每個標記函數(shù)的準確性。通過標簽函數(shù)輸出之間的一致性矩陣來學習打標簽是否準確。
在Snorkel DryBell中,研究人員還實現(xiàn)了建模方法一種更快、無采樣的版本,并在TensorFlow中實現(xiàn),以處理Web規(guī)模的數(shù)據(jù)。
通過在Snorkel DryBell中使用此程序組合和建模標簽函數(shù)的輸出,能夠生成高質(zhì)量的訓練標簽。與兩個分別有1.2萬和8萬個手工標記訓練數(shù)據(jù)集比較,由Snorkel DryBell標記的數(shù)據(jù)集訓練出的模型實現(xiàn)了一樣的預測準確度。
將不可服務(wù)的知識遷移到可服務(wù)的模型
在許多情況下,可服務(wù)特征(可用于生產(chǎn))和不可服務(wù)特征(太慢或太貴而無法用于生產(chǎn))之間也有重要區(qū)別。這些不可服務(wù)的特征可能具有非常豐富的信號,但是有個問題是如何使用它們來訓練,或者是幫助能在生產(chǎn)中部署的可服務(wù)模型呢?
在Snorkel DryBell中,用戶發(fā)現(xiàn)可以在一個不可服務(wù)的特征集上編寫標簽函數(shù),然后使用Snorkel DryBell輸出的訓練標簽來訓練在不同的、可服務(wù)的特征集上定義的模型。
這種跨特征轉(zhuǎn)移將基準數(shù)據(jù)集的性能平均提高了52%。
這種方法可以被看作是一種新型的遷移學習,但不是在不同的數(shù)據(jù)集之間轉(zhuǎn)移模型,而是在不同的特征集之間轉(zhuǎn)移領(lǐng)域知識。它可以使用速度太慢、私有或其他不適合部署的資源,在廉價、實時特征上訓練可服務(wù)的模型。
-
函數(shù)
+關(guān)注
關(guān)注
3文章
4381瀏覽量
64890 -
機器學習
+關(guān)注
關(guān)注
66文章
8503瀏覽量
134622 -
數(shù)據(jù)集
+關(guān)注
關(guān)注
4文章
1224瀏覽量
25448
原文標題:告別數(shù)據(jù)集資源匱乏,谷歌與斯坦福大學用弱監(jiān)督學習給訓練集打標簽
文章出處:【微信號:worldofai,微信公眾號:worldofai】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
嵌入式AI技術(shù)漫談:怎么為訓練AI模型采集樣本數(shù)據(jù)
【「# ROS 2智能機器人開發(fā)實踐」閱讀體驗】機器人入門的引路書
海思SD3403邊緣計算AI數(shù)據(jù)訓練概述
數(shù)據(jù)標注服務(wù)—奠定大模型訓練的數(shù)據(jù)基石
標貝數(shù)據(jù)標注服務(wù):奠定大模型訓練的數(shù)據(jù)基石

《具身智能機器人系統(tǒng)》第10-13章閱讀心得之具身智能機器人計算挑戰(zhàn)
【「具身智能機器人系統(tǒng)」閱讀體驗】1.全書概覽與第一章學習
《具身智能機器人系統(tǒng)》第7-9章閱讀心得之具身智能機器人與大模型
【「具身智能機器人系統(tǒng)」閱讀體驗】+數(shù)據(jù)在具身人工智能中的價值
中國聯(lián)通實現(xiàn)30TB樣本數(shù)據(jù)跨城存算分離訓練
eda在機器學習中的應用
PyTorch 數(shù)據(jù)加載與處理方法
端到端InfiniBand網(wǎng)絡(luò)解決LLM訓練瓶頸

直播預約 |數(shù)據(jù)智能系列講座第4期:預訓練的基礎(chǔ)模型下的持續(xù)學習

評論