草久久久久久久久久久久久久久久久午夜 ,欧美日韩亚洲一区二区

作為工作中最關(guān)鍵的部分，數(shù)據(jù)預(yù)處理同時也是大多數(shù)數(shù)據(jù)科學(xué)家耗時最長的項目，他們大約80%的時間花在這上面。

這些任務(wù)有怎樣重要性？有哪些學(xué)習(xí)方法和技巧？本文就將重點介紹來自著名大學(xué)和研究團隊在不同培訓(xùn)數(shù)據(jù)主題上的學(xué)術(shù)論文。主題包括人類注釋者的重要性，如何在相對較短的時間內(nèi)創(chuàng)建大型數(shù)據(jù)集，如何安全處理可能包含私人信息的訓(xùn)練數(shù)據(jù)等等。

1. 人類注釋器（human annotators）是多么重要？

機器學(xué)習(xí)的任務(wù)：從學(xué)術(shù)論文中學(xué)習(xí)數(shù)據(jù)預(yù)處理

本文介紹了注釋器質(zhì)量如何極大地影響訓(xùn)練數(shù)據(jù)，進而影響模型的準(zhǔn)確性的第一手資料。在這個情緒分類項目里，Joef Stefan研究所的研究人員用多種語言分析了sentiment-annotated tweet的大型數(shù)據(jù)集。

有趣的是，該項目的結(jié)果表明頂級分類模型的性能在統(tǒng)計學(xué)上沒有重大差異。相反，人類注釋器的質(zhì)量是決定模型準(zhǔn)確性的更大因素。

為了評估他們的注釋器，團隊使用了注釋器之間的認(rèn)同過程和自我認(rèn)同過程。研究發(fā)現(xiàn)，雖然自我認(rèn)同是去除表現(xiàn)不佳的注釋器的好方法，但注釋者之間的認(rèn)同可以用來衡量任務(wù)的客觀難度。

研究論文：《多語言Twitter情緒分類：人類注釋器的角色》（MultilingualTwitter Sentiment Classification： The Role of Human Annotators）

作者/供稿人：Igor Mozetic， Miha Grcar， Jasmina Smailovic（所有作者均來自Jozef Stefan研究所）

出版/最后更新日期：2016年5月5日

2.機器學(xué)習(xí)的數(shù)據(jù)收集調(diào)查

機器學(xué)習(xí)的任務(wù)：從學(xué)術(shù)論文中學(xué)習(xí)數(shù)據(jù)預(yù)處理

這篇論文來自韓國先進科學(xué)技術(shù)研究所的一個研究團隊，非常適合那些希望更好地了解數(shù)據(jù)收集、管理和注釋的初學(xué)者。此外，本文還介紹和解釋了數(shù)據(jù)采集、數(shù)據(jù)擴充和數(shù)據(jù)生成的過程。

對于剛接觸機器學(xué)習(xí)的人來說，這篇文章是一個很好的資源，可以幫助你了解許多常見的技術(shù)，這些技術(shù)可以用來創(chuàng)建高質(zhì)量的數(shù)據(jù)集。

研究論文：《機器學(xué)習(xí)的數(shù)據(jù)收集調(diào)查》（A Survey on Data Collection for MachineLearning）

作者/供稿人： Yuji Roh， Geon Heo， Steven Euijong Whang （所有作者均來自韓國科學(xué)技術(shù)院）

出版/最后更新日期：2019年8月12日

3.用于半監(jiān)督式學(xué)習(xí)和遷移學(xué)習(xí)的高級數(shù)據(jù)增強技術(shù)

機器學(xué)習(xí)的任務(wù)：從學(xué)術(shù)論文中學(xué)習(xí)數(shù)據(jù)預(yù)處理

目前數(shù)據(jù)科學(xué)家面臨的最大問題之一就是獲得訓(xùn)練數(shù)據(jù)。也可以說，深度學(xué)習(xí)所面臨最大的問題之一，是大多數(shù)模型都需要大量的標(biāo)簽數(shù)據(jù)才能以較高的精度發(fā)揮作用。

為了解決這些問題，來自谷歌和卡內(nèi)基·梅隆大學(xué)的研究人員提出了一個在大幅降低數(shù)據(jù)量的情況下訓(xùn)練模型的框架。該團隊提出使用先進的數(shù)據(jù)增強方法來有效地將噪音添加到半監(jiān)督式學(xué)習(xí)模型中使用的未標(biāo)記數(shù)據(jù)樣本中，這個框架能夠取得令人難以置信的結(jié)果。

該團隊表示，在IMDB文本分類數(shù)據(jù)集上，他們的方法只需在20個標(biāo)記樣本上進行訓(xùn)練，就能夠超越最先進的模型。此外，在CIFAR-10基準(zhǔn)上，他們的方法表現(xiàn)優(yōu)于此前所有的方法。

論文題目：《用于一致性訓(xùn)練的無監(jiān)督數(shù)據(jù)增強》（UnsupervisedData Augmentation for Consistency Training）

作者/供稿人：Qizhe Xie （1，2）， Zihang Dai （1，2）， Eduard Hovy （2），Minh-Thang Luong （1）， Quoc V. Le （1）（1 – Google研究院，谷歌大腦團隊， 2 – 卡耐基·梅隆大學(xué)）

發(fā)布日期 / 最后更新：2019年9月30日

4.利用弱監(jiān)督對大量數(shù)據(jù)進行標(biāo)注

對于許多機器學(xué)習(xí)項目來說，獲取和注釋大型數(shù)據(jù)集需要花費大量的時間。在這篇論文中，來自斯坦福大學(xué)的研究人員提出了一個通過稱為“數(shù)據(jù)編程”的過程自動創(chuàng)建數(shù)據(jù)集的系統(tǒng)。

機器學(xué)習(xí)的任務(wù)：從學(xué)術(shù)論文中學(xué)習(xí)數(shù)據(jù)預(yù)處理

上表是直接從論文中提取的，使用數(shù)據(jù)編程（DP）顯示了與遠(yuǎn)程監(jiān)督的ITR方法相比的精度、召回率和F1得分。

該系統(tǒng)采用弱監(jiān)管策略來標(biāo)注數(shù)據(jù)子集。產(chǎn)生的標(biāo)簽和數(shù)據(jù)可能會有一定程度的噪音。然而，該團隊隨后通過將訓(xùn)練過程表示為生成模型，從數(shù)據(jù)中去除噪音，并提出了修改損失函數(shù)的方法，以確保它對“噪音感知”。

研究論文：《數(shù)據(jù)編程：快速創(chuàng)建大型訓(xùn)練集》（DataProgramming： Creating Large Training Sets， Quickly）

作者/供稿人：Alexander Ratner， Christopher De Sa， Sen Wu， DanielSelsam， Christopher Re（作者均來自斯坦福大學(xué)）

發(fā)布/最后更新日期：2017年1月8日

5.如何使用半監(jiān)督式知識轉(zhuǎn)移來處理個人身份信息（PII）

機器學(xué)習(xí)的任務(wù)：從學(xué)術(shù)論文中學(xué)習(xí)數(shù)據(jù)預(yù)處理

來自谷歌和賓夕法尼亞州立大學(xué)的研究人員介紹了一種處理敏感數(shù)據(jù)的方法，例如病歷和用戶隱私信息。這種方法被稱為教師集合私有化（PATE），可以應(yīng)用于任何模型，并且能夠在MNIST和SVHN數(shù)據(jù)集上實現(xiàn)最先進的隱私/效用權(quán)衡。

然而，正如數(shù)據(jù)科學(xué)家Alejandro Aristizabal在文章中所說，PATE所設(shè)計的一個主要問題為該框架要求學(xué)生模型與教師模型共享其數(shù)據(jù)。在這個過程中，隱私得不到保障。

為此Aristizabal提出了一個額外的步驟，為學(xué)生模型的數(shù)據(jù)集加密。你可以在他的文章Making PATEBidirectionally Private中讀到這個過程，但一定要先閱讀其原始研究論文。

論文題目：《從隱私訓(xùn)練數(shù)據(jù)進行深度學(xué)習(xí)的半監(jiān)督式知識轉(zhuǎn)移》（Semi-SupervisedKnowledge Transfer for Deep Learning From Private Training Data）

作者/供稿人：Nicolas Papernot（賓夕法尼亞州立大學(xué)）、Martin Abadi（谷歌大腦）、Ulfar Erlingsson（谷歌）、Ian Goodfellow（谷歌大腦）、Kunal Talwar（谷歌大腦）。

發(fā)布日期 / 最后更新：2017年3月3日

閱讀頂尖學(xué)術(shù)論文是了解學(xué)術(shù)前沿的不二法門，同時也是從他人實踐中內(nèi)化重要知識、學(xué)習(xí)優(yōu)秀研究方法的好辦法，多讀讀論文絕對會對你有幫助。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

機器學(xué)習(xí)

機器學(xué)習(xí)

+關(guān)注

關(guān)注
66

文章
8501

瀏覽量
134568
論文

論文

+關(guān)注

關(guān)注
1

文章
103

瀏覽量
15209
數(shù)據(jù)預(yù)處理

數(shù)據(jù)預(yù)處理

+關(guān)注

關(guān)注
1

文章
20

瀏覽量
2884

一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

搜索歷史

機器學(xué)習(xí)的任務(wù)：從學(xué)術(shù)論文中學(xué)習(xí)數(shù)據(jù)預(yù)處理

評論