欧美地区一二三不播放,精品一区二区三区久久久久久久,黄色女上公司国产电影

創(chuàng)造力一直是人類進(jìn)化的本質(zhì)。數(shù)千年來，人類已經(jīng)在歷史長河中發(fā)掘了不少奇妙發(fā)現(xiàn)，而這種行為的起源契機(jī)可能是第一個輪子開始滾動，或是某個瘋狂想法背后的思維火花崩現(xiàn)。從石器時代到今天，創(chuàng)造力始終倍受贊賞，而它也確實(shí)也給我們帶來了源源不斷的進(jìn)步動力。

現(xiàn)如今，各個領(lǐng)域正在豐富創(chuàng)造力的內(nèi)涵，其中，數(shù)據(jù)科學(xué)應(yīng)該是最歡迎它的領(lǐng)域之一：從零假設(shè)、數(shù)據(jù)預(yù)處理、構(gòu)建模型——創(chuàng)造性洞察力在其中發(fā)揮著重要作用。

攝影：Franki Chamaki

一位Kaggle大師曾對我說：

你解決問題的次數(shù)越多，你對某些想法、挑戰(zhàn)的理解就越深，你會發(fā)現(xiàn)某些東西對于特定問題會有奇效。

放在競賽實(shí)踐中，這種經(jīng)驗(yàn)在特征工程上表現(xiàn)得尤為明顯。所謂特征工程，指的就是從數(shù)據(jù)中抽取包含大量信息的特征，方便模型易于學(xué)習(xí)的過程。

為什么特征工程如此重要？

現(xiàn)在數(shù)據(jù)科學(xué)的許多初學(xué)者都“迷信”LGBM和XGBoost，因?yàn)樗鼈兊男Ч_實(shí)好，準(zhǔn)確率很高。相應(yīng)的，傳統(tǒng)的線性回歸和KNN開始淡出人們的視野。

但在某些情況下，線性回歸的效果其實(shí)不一定比GBM樹差，甚至有時還更好。以我個人的經(jīng)歷為例，線性回歸模型在曾在不少競賽中幫助我取得優(yōu)勢。

統(tǒng)計(jì)學(xué)家喬治·博克有一句話，被不少統(tǒng)計(jì)學(xué)從業(yè)者奉為圭臬：

所有的模型都是錯誤的，但其中有些是有用的。

這意味著模型只有在發(fā)現(xiàn)某些和目標(biāo)變量有重大關(guān)系的特征時，它才是強(qiáng)大的。而這就是特征工程發(fā)揮作用的地方——我們設(shè)計(jì)、創(chuàng)建新特征，以便模型從中提取重要相關(guān)性。

之前我參加過DataHack的一個競賽，內(nèi)容是用數(shù)據(jù)集預(yù)測電力消耗。通過熱圖和探索性數(shù)據(jù)分析，我繪制了以下這幅圖：

熱圖的縱坐標(biāo)DOW表示一周7天，橫坐標(biāo)則是一天24小時。很明顯，周末整天的用電情況和工作日深夜的用電情況十分類似。由此，我創(chuàng)建了一個特征——weekend proximity，它不僅提高了模型得分，還幫我最終贏得了比賽。

因此，在機(jī)器學(xué)習(xí)競賽中善用創(chuàng)造力十分重要，下面是幾個大家都知道但不常用的特征工程技巧，其中部分還有些旁門左道：

把數(shù)據(jù)轉(zhuǎn)換成圖像

Meta-leaks

表征學(xué)習(xí)特征

均值編碼

轉(zhuǎn)換目標(biāo)變量

把數(shù)據(jù)轉(zhuǎn)換成圖像

Kaggle上有一個微軟惡意軟件分類挑戰(zhàn)，它的數(shù)據(jù)集包含一組已知的惡意軟件文件，對于每個文件，原始數(shù)據(jù)包含文件二進(jìn)制內(nèi)容的十六進(jìn)制表示。此前，參賽者在網(wǎng)上從沒接觸過類似的數(shù)據(jù)集，而他們的目標(biāo)是開發(fā)最優(yōu)分類算法，把測試集中的文件放到各自所屬的類別中。

比賽進(jìn)行到最后，“say NOOOOO to overfittttting”贏得了第一名，他們的制勝法寶是把原始數(shù)據(jù)的圖像表示作為特征。

我們把惡意文件的字節(jié)文檔看成黑白圖像，其中每個字節(jié)的像素強(qiáng)度在0-255之間。然而，標(biāo)準(zhǔn)圖像處理技術(shù)與n-gram等其他特征不兼容。所以之后，我們從asm文件而不是字節(jié)文件中提取黑白圖像。

下圖是同一惡意軟件的字節(jié)圖像、asm圖像對比：

字節(jié)圖像（左）asm圖像（右）

asm文件是用匯編語言寫成的源程序文件。這個團(tuán)隊(duì)發(fā)現(xiàn)把a(bǔ)sm文件轉(zhuǎn)成圖像后，圖像的前800-1000個像素的像素強(qiáng)度可以作為分類惡意軟件的一個可靠特征。

雖然他們表示并不知道為什么這么做會奏效，因?yàn)閱为?dú)使用這個特征并不會給分類器性能帶來明顯變化，但當(dāng)它和其他n-gram特征一起使用時，性能提升效果就很顯著了。

把原始數(shù)據(jù)轉(zhuǎn)換成圖像，并把像素作為特征。這是Kaggle競賽中出現(xiàn)的令人驚嘆的特征工程之一。

元數(shù)據(jù)泄露

當(dāng)處理過的特征在沒有應(yīng)用任何機(jī)器學(xué)習(xí)的情況下，可以非常完美地解釋目標(biāo)時，這可能發(fā)生了數(shù)據(jù)泄露。

最近Kaggle上的一個競賽——桑坦德客戶價值預(yù)測挑戰(zhàn)賽發(fā)生了數(shù)據(jù)泄露，參賽者只需對行和列的序列做蠻力搜索，最終就能很好地解釋目標(biāo)。

桑坦德的數(shù)據(jù)泄露

如上圖所示，目標(biāo)變量明顯泄漏到了f190486列中。事實(shí)上，我沒有用任何機(jī)器學(xué)習(xí)就得到了0.57分，這在排行榜上是個高分。在競賽截止日期前二十天左右，主持競賽的桑坦德銀行終于發(fā)現(xiàn)了這個問題，但他們最終還是決定繼續(xù)比賽，讓參賽者假設(shè)這是一個數(shù)據(jù)屬性。

雖然這種錯誤非常罕見，但如果只是想在競賽中取得好排名，你可以在一開始從文件名、圖像元數(shù)據(jù)以及序號等特征中嘗試提取模式。請注意，這種做法本身對實(shí)際的數(shù)據(jù)科學(xué)問題沒有作用。

比起在IDA和其它特征上花費(fèi)大量時間，如果你真的每次都認(rèn)真做探索性數(shù)據(jù)分析了（EDA），你可能會因此發(fā)現(xiàn)競賽“捷徑”。

表征學(xué)習(xí)特征

對于資歷較老的數(shù)據(jù)科學(xué)參賽者，他們對基礎(chǔ)特征工程技巧肯定十分熟悉，比如Label Encoding、one-hot編碼、Binning等等。然而，這些方法非常普通，現(xiàn)在每個人都知道它們該怎么用。

為了從人群中脫穎而出，為了在排行榜上占據(jù)更高的名次，我們需要發(fā)掘一些聰明的方法，比如自編碼器。自編碼器能從數(shù)據(jù)樣本中進(jìn)行無監(jiān)督學(xué)習(xí)，這意味著算法直接從訓(xùn)練數(shù)據(jù)中捕捉最顯著的特征，無需其他特征工程。

自編碼器

自編碼器只是給定一個表征學(xué)習(xí)模型，它學(xué)習(xí)輸入，然后生成輸入本身。例：這就像給一個人看一張關(guān)于貓的圖像，然后要求他在一段時間后畫出自己看到的那只貓。

直覺是學(xué)習(xí)過程中提取到的最佳觀察特征。在上面這個例子中，人類肯定會畫兩只眼睛、三角形的耳朵和胡須。然后后面的模型會把這些直覺作為分類的重要依據(jù)。

均值編碼

均值編碼其實(shí)還是很常見的，這是一種非常適合初學(xué)者的技巧，能在解決問題的同時提供更高的準(zhǔn)確性。如果我們用訓(xùn)練數(shù)據(jù)中的目標(biāo)值替換分類值，這叫Target Encoding；如果我們用平均數(shù)這樣的統(tǒng)計(jì)量度來對分類值進(jìn)行編碼，這就叫均值編碼（Mean Encoding）。

下面是一個示例，我們需要基于每類目標(biāo)變量的value_counts，通過標(biāo)簽數(shù)量、目標(biāo)變量編碼標(biāo)簽。

其中，featurelabel是scikit-learn編碼的標(biāo)簽，featuremean就是莫斯科標(biāo)簽下的真實(shí)目標(biāo)數(shù)量/莫斯科標(biāo)簽下的目標(biāo)總數(shù)，也就是2/5=0.4。

同理，對于Tver標(biāo)簽——

m=Tver標(biāo)簽下的真實(shí)目標(biāo)數(shù)量=3

n=Tver標(biāo)簽下的目標(biāo)總數(shù)=4

相應(yīng)的，Tver編碼就是m/n=3/4=0.75（約等于0.8）

問：為什么均值編碼優(yōu)于其他編碼方法？答：如果數(shù)據(jù)具有高基數(shù)類別屬性，那么相比其他編碼方法，均值編碼是更簡單高效的一種方案。

數(shù)據(jù)分析中經(jīng)常會遇到類別屬性，比如日期、性別、街區(qū)編號、IP地址等。絕大部分?jǐn)?shù)據(jù)分析算法是無法直接處理這類變量的，需要先把它們先處理成數(shù)值型量。如果這些變量的可能值很少，我們可以用常規(guī)的one-hot編碼和label encoding。

但是，如果這些變量的可能值很多，也就是高基數(shù)，那么在這種情況下，使用label encoding會出現(xiàn)一系列連續(xù)數(shù)字（基數(shù)范圍內(nèi)），在特征中添加噪聲標(biāo)簽和編碼會導(dǎo)致精度不佳。而如果使用的是one-hot編碼，隨著特征不斷增加，數(shù)據(jù)集的維數(shù)也在不斷增加，這會阻礙編碼。

因此，這時均值編碼是最好的選擇之一。但它也有缺點(diǎn)，就是容易過擬合（提供數(shù)據(jù)多），所以使用時要配合適當(dāng)?shù)恼齽t化技術(shù)。

用CV loop工具進(jìn)行正則化

Regularization Smoothing

Regularization Expanding mean

轉(zhuǎn)換目標(biāo)變量

嚴(yán)格意義上來說，這不屬于特征工程。但是，當(dāng)我們拿到一個高度偏斜的數(shù)據(jù)時，如果我們不做任何處理，最后模型的性能肯定會受影響。

目標(biāo)分布

如上圖所示，這里的數(shù)據(jù)高度偏斜，如果我們把目標(biāo)變量轉(zhuǎn)成log(1+目標(biāo))格式，那么它的分布就接近高斯分布了。

需要注意的是，提交預(yù)測值時，我們需要進(jìn)行轉(zhuǎn)換：predictions = np.exmp1(log_predictions)。

以上就是我的經(jīng)驗(yàn)，希望本文對你有幫助！

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報(bào)投訴

圖像

圖像

+關(guān)注

關(guān)注
2

文章
1094

瀏覽量
41293
數(shù)據(jù)集

數(shù)據(jù)集

+關(guān)注

關(guān)注
4

文章
1224

瀏覽量
25460
數(shù)據(jù)科學(xué)

數(shù)據(jù)科學(xué)

+關(guān)注

關(guān)注
0

文章
168

瀏覽量
10492