一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

機器學習新手最適合學習的10個算法

機器學習算法與人工智能 ? 2018-03-29 14:10 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

機器學習萌新必學的Top10算法

在機器學習領域里,不存在一種萬能的算法可以完美解決所有問題,尤其是像預測建模的監(jiān)督學習里。

比方說,神經(jīng)網(wǎng)絡不見得比決策樹好,同樣反過來也不成立。最后的結果是有很多因素在起作用的,比方說數(shù)據(jù)集的大小以及組成。所以,針對你要解決的問題,最好是嘗試多種不同的算法。并借一個測試集來評估不同算法之間的表現(xiàn),最后選出一個結果最好的。

當然,你要選適合解決你問題的算法來嘗試。比方說,要打掃房子,你會用真空吸塵器,掃把,拖把;你絕對不會翻出一把鏟子來開始挖坑,對吧。不過呢,對于所有預測建模的監(jiān)督學習算法來說,還是有一些通用的底層原則的。

機器學習算法,指的是要學習一個目標函數(shù),能夠盡可能地還原輸入和輸出之間的關系。

然后根據(jù)新的輸入值X,來預測出輸出值Y。精準地預測結果是機器學習建模的任務。

所以我們來了解一下,Top10機器學習算法1線性回歸

統(tǒng)計學與機器學習領域里研究最多的算法。做預測建模,最重要的是準確性(盡可能減小預測值和實際值的誤差)。哪怕犧牲可解釋性,也要盡可能提高準確性。為了達到這個目的,我們會從不同領域(包括統(tǒng)計學)參考或照搬算法。線性回歸可用一條線表示輸入值X和輸出值Y之間的關系,這條線的斜率的值,也叫系數(shù)。

機器學習新手最適合學習的10個算法

比方說,y = B0 + B1*x,我們就可以根據(jù)X值來預測Y值。機器學習的任務就是找出系數(shù)B0和B1。從數(shù)據(jù)中建立線性回歸的模型有不同的方法,比方說線性代數(shù)的最小二乘法、梯度下降優(yōu)化。線性回歸已經(jīng)存在了200多年,相關研究已經(jīng)很多了。用這個算法關鍵在于要盡可能地移除相似的變量以及清洗數(shù)據(jù)。對算法萌新來說,是最簡單的算法了。

2邏輯回歸

這方法來自統(tǒng)計學領域,是一種可以用在二元分類問題上的方法。邏輯回歸,和線性回歸相似,都是要找出輸入值的系數(shù)權重。不同的地方在于,對輸出值的預測改成了邏輯函數(shù)。邏輯函數(shù)看起來像字母S,輸出值的范圍是0到1。把邏輯函數(shù)的輸出值加一個處理規(guī)則,就能得到分類結果,非0即1。比方說,可以規(guī)定輸入值小于0.5,那么輸出值就是1。

機器學習新手最適合學習的10個算法

這個算法還可以用來預測數(shù)據(jù)分布的概率,適用于需要更多數(shù)據(jù)論證支撐的預測。和線性回歸相似,如果把和輸出不相干的因子或者相近的因子剔除掉的話,邏輯回歸算法的表現(xiàn)會更好。對于二元分類問題,邏輯回歸是個可快速上手又有效的算法。

3線性判別分析

邏輯回歸算法,只能用于二分問題。當輸出的結果類別超過兩類的時候,就要用線性判別分析算法了。這種算法的可視化結果還比較一目了然,能看出數(shù)據(jù)在統(tǒng)計學上的特征。這上面的結果都是分別計算得到的,單一的輸入值可以是每一類的中位數(shù),也可以是每一類值的跨度。

機器學習新手最適合學習的10個算法

基于對每種類別計算之后所得到的判別值,取最大值做出預測。這種方法是假定數(shù)據(jù)符合高斯分布。所以,最好在預測之前把異常值先踢掉。對于分類預測問題來說,這種算法既簡單又給力。

4分類與回歸樹

預測模型里,決策樹也是非常重要的一種算法??梢杂梅謨刹娴臉鋪肀硎緵Q策樹的模型。每一個節(jié)點代表一個輸入,每個分支代表一個變量(默認變量是數(shù)字類型)

機器學習新手最適合學習的10個算法

決策樹

決策樹的葉節(jié)點指的是輸出變量。預測的過程會經(jīng)過決策樹的分岔口,直到最后停在了一個葉節(jié)點上,對應的就是輸出值的分類結果。決策樹很好學,也能很快地得到預測結果。對于大部分問題來說,得到的結果還挺準確,也不要求對數(shù)據(jù)進行預處理。

5樸素貝葉斯分類器

這種預測建模的算法強大到超乎想象。這種模型,可以直接從你的訓練集中計算出來兩種輸出類別的概率。一個是每種輸出種類的概率;另外一個,是根據(jù)給定的x值,得到的是有條件的種類概率。一旦計算之后,概率的模型可以用貝葉斯定理預測新的數(shù)據(jù)。當你的數(shù)據(jù)是實數(shù)值,那么按理說應該是符合高斯分布的,也就很容易估算出這個概率。

機器學習新手最適合學習的10個算法

貝葉斯定理

樸素貝葉斯定理之所以名字里有個“樸素”,是因為這種算法假定每個輸入的變量都是獨立的。不過,真實的數(shù)據(jù)不可能滿足這個隱藏前提。盡管如此,這個方法對很多復雜的問題還是很管用的。

6K近鄰算法

最近K近鄰的模型表示,就是整個訓練集。很直截了當,對吧?對新數(shù)據(jù)的預測,是搜索整個訓練集的值,找到K個最近的例子(literally的鄰居)。然后總結K個輸出的變量。這種算法難就難在,怎么定義兩個數(shù)據(jù)的相似度(相距多近算相似)。如果你的特征(attributes)屬于同一個尺度的話,那最簡單的方法是用歐幾里得距離。這個數(shù)值,你可以基于每個輸入變量之間的距離來計算得出。

機器學習新手最適合學習的10個算法

最近鄰法,需要占用大量的內存空間來放數(shù)據(jù),這樣在需要預測的時候就可以進行即時運算(或學習)。也可以不斷更新訓練集,使得預測更加準確。距離或親密度這個思路遇到更高維度(大量的輸入變量)就行不通了,會影響算法的表現(xiàn)。這叫做維度的詛咒。當(數(shù)學)空間維度增加時,分析和組織高維空間(通常有成百上千維),因體積指數(shù)增加而遇到各種問題場景。所以最好只保留那些和輸出值有關的輸入變量。

7學習矢量量化

最近鄰法的缺點是,你需要整個訓練集。而學習矢量量化(后簡稱LVQ)這個神經(jīng)網(wǎng)絡算法,是自行選擇訓練樣例。

機器學習新手最適合學習的10個算法

LVQ,是一組矢量,也叫碼本。一開始,矢量是隨機選的,經(jīng)過幾次學習算法迭代之后,慢慢選出最能代表訓練集的矢量。學習完成后,碼本就可以用來預測了,就像最近鄰法那樣。計算新輸入樣例和碼本的距離,可以找出最相近的鄰居,也就是最匹配的碼本。如果你重新調整數(shù)據(jù)尺度,把數(shù)據(jù)歸到同一個范圍里,比如說0到1之間,那就可以獲得最好的結果。如果用最近鄰法就獲得了不錯的結果,那么可以再用LVQ優(yōu)化一下,減輕訓練集儲存壓力。

8支持向量機(簡稱SVM)

這可能是機器學習里最受歡迎的算法了。超平面是一條可以分割輸入變量的空間的“線”。支持向量機的超平面,是能把輸入變量空間盡可能理想地按種類切割,要么是0,要么是1。在二維空間里,你可以把超平面可以分割變量空間的那條“線”。這條線能把所有的輸入值完美一分為二。SVM的學習目標就是要找出這個超平面。

機器學習新手最適合學習的10個算法

超平面和挨得最近的數(shù)據(jù)點之間的距離,叫做邊緣。最理想的超平面,是可以無誤差地劃分訓練數(shù)據(jù)。 也就是說,每一類數(shù)據(jù)里距離超平面最近的向量與超平面之間的距離達到最大值。這些點就叫做支持向量,他們定義了超平面。從實際操作上,最理想的算法是能找到這些把最近矢量與超平面值距離最大化的點。支持向量可能是最強的拿來就用的分類器了。值得用數(shù)據(jù)集試試。

9隨機森林

隨機森林,屬于一種重復抽樣算法,是最受歡迎也最強大的算法之一。在統(tǒng)計學里,bootstrap是個估算值大小很有效的方法。比方說估算平均值。從數(shù)據(jù)庫中取一些樣本,計算平均值,重復幾次這樣的操作,獲得多個平均值。然后平均這幾個平均值,希望能得到最接近真實的平均值。而bagging算法,是每次取多個樣本,然后基于這些樣本建模。當要預測新數(shù)據(jù)的時候,之前建的這些模型都做次預測,最后取這些預測值的平均數(shù),盡力接近真實的輸出值。

機器學習新手最適合學習的10個算法

隨機森林在這個基礎上稍微有點變化。它包含多個決策樹的分類器, 并且其輸出的類別是由個別樹輸出的類別的眾數(shù)而定。如果你的高方差算法取得了不錯的結果(比方說決策樹),那么用隨機森林的話會進一步拿到更好的結果。

10提升(Boosting)算法和自適應增強(Adaboost)算法

Boosting的核心是,對同一個訓練集訓練不同的分類器(弱分類器),然后把這些弱分類器集合起來,構成一個更強的最終分類器(強分類器)。所得到的第二個弱分類器會糾正第一個弱分類器的誤差。弱分類器的不斷疊加,直到預測結果完美為止。Adaboost算法是首個成功用于二元分類問題的提升算法。現(xiàn)在有很多提升方法都是基于Adaboost。

機器學習新手最適合學習的10個算法

AdaBoost適用于短的決策樹。在第一個樹建立出來之后,不同的樣本訓練之后的表現(xiàn)可以作參考,用不同的樣本訓練弱分類器,然后根據(jù)錯誤率給樣本一個權重。很難預測的訓練數(shù)據(jù)應該給更多的權重,反過來,好預測的就少一點權重。模型按順序一個一個建,每個訓練數(shù)據(jù)的權重都會受到上一個決策樹表現(xiàn)的影響。當所有的決策樹都建好之后,看新數(shù)據(jù)的預測表現(xiàn),結果準不準。因為訓練數(shù)據(jù)對于矯正算法非常重要,所以要確保數(shù)據(jù)清洗干凈了,不要有奇奇怪怪的偏離值。

最后的最后面對海量的機器學習算法,萌新最愛問的是,“我該選什么算法?”在回答這個問題之前,要先想清楚:

1)數(shù)據(jù)的數(shù)量、質量、本質;

2)可供計算的時間;

3)這個任務的緊急程度;

4)你用這個數(shù)據(jù)想做什么。

要知道,即使是老司機,也無法閉著眼睛說哪個算法能拿到最好的結果。還是得動手試。其實機器學習的算法很多的,以上只是介紹用得比較多的類型,比較適合萌新試試手找找感覺。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 算法
    +關注

    關注

    23

    文章

    4710

    瀏覽量

    95376
  • 機器學習
    +關注

    關注

    66

    文章

    8503

    瀏覽量

    134601

原文標題:機器學習萌新必學的Top10算法

文章出處:【微信號:machinelearningai,微信公眾號:機器學習算法與人工智能】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    PROTEL新手最適合的教程我是受益匪淺希望對你有用

    PROTEL新手最適合的教程我是受益匪淺希望對你有用,真的很適合新手使用我是學會,你下載希望您多多留言,大家一起學習
    發(fā)表于 04-21 21:36

    如何挑選最適合的PXI/PXIe系統(tǒng)?

    影響PXI/PXIe系統(tǒng)散熱的要素是什么?如何配置風扇,以取得風扇最佳性能?如何挑選最適合的PXI/PXIe系統(tǒng)?
    發(fā)表于 05-08 08:03

    如何在STM板上使用機器學習算法對通過工業(yè)傳感器獲取的氣體傳感器數(shù)據(jù)進行分類?

    我想在 STM 板上使用機器學習算法對通過工業(yè)傳感器獲取的氣體傳感器數(shù)據(jù)進行分類。知道哪種 STM32 變體最適合此應用嗎?
    發(fā)表于 01-10 07:10

    分享最適合新手入門的10機器學習算法

    經(jīng)驗豐富的數(shù)據(jù)科學家,他也無法憑空判斷哪種算法表現(xiàn)得最好,一定是要嘗試之后才能下結論。除了上述10算法外,還有其他很多機器學習
    的頭像 發(fā)表于 01-24 15:59 ?1.3w次閱讀
    分享<b class='flag-5'>最適合</b><b class='flag-5'>新手</b>入門的<b class='flag-5'>10</b>種<b class='flag-5'>機器</b><b class='flag-5'>學習</b><b class='flag-5'>算法</b>

    新手如何接觸機器學習的這十大算法一定不能錯過

    在神經(jīng)網(wǎng)絡的成功的帶動下,越來越多的研究人員和開發(fā)人員都開始重新審視機器學習,開始嘗試用某些機器學習方法自動解決可以輕松采集數(shù)據(jù)的問題。然而,在眾多的
    發(fā)表于 03-16 22:39 ?1251次閱讀

    Python基礎教程之《Python機器學習—預測分析核心算法》免費下載

     在學習和研究機器學習的時候,面臨令人眼花繚亂的算法,機器學習新手往往會不知所措。本書從
    發(fā)表于 09-29 08:00 ?19次下載

    機器學習新手常犯的錯誤怎么避免?

    機器學習中,有許多方法來構建產(chǎn)品或解決方案,每種方法都假設不同的東西。很多時候,如何識別哪些假設是合理的并不明顯。剛接觸機器學習的人會犯錯誤,事后想想,這些錯誤往往會讓人覺得愚蠢。我
    的頭像 發(fā)表于 11-13 17:44 ?3571次閱讀

    2021年最適合機器學習初創(chuàng)公司進行排名

    同期對數(shù)據(jù)科學家的需求增長了37%。實際上,美國最新公布的一名機器學習工程師的平均基本工資為146,085美元。該工作網(wǎng)站發(fā)現(xiàn),2015年至2018年期間,機器學習工程師的空缺數(shù)量增長
    的頭像 發(fā)表于 11-15 09:45 ?2120次閱讀

    機器學習新手基礎:十大算法導覽

    機器學習中,有一稱為 No Free Lunch 的定理。簡單來說,與監(jiān)督學習特別相關的這個定理,它指出沒有萬能算法,就是用一
    的頭像 發(fā)表于 11-27 10:00 ?2529次閱讀

    17機器學習的常用算法

    根據(jù)數(shù)據(jù)類型的不同,對一問題的建模有不同的方式。在機器學習或者人工智能領域,人們首先會考慮算法學習方式。在
    的頭像 發(fā)表于 08-11 11:20 ?2072次閱讀

    10機器學習中常用的距離度量方法

    作者:JonteDancker來源:DeepHubIMBA距離度量是有監(jiān)督和無監(jiān)督學習算法的基礎,包括k近鄰、支持向量機和k均值聚類等。距離度量的選擇影響我們的機器學習結果,因此考慮哪
    的頭像 發(fā)表于 11-03 10:35 ?1114次閱讀
    <b class='flag-5'>10</b><b class='flag-5'>個</b><b class='flag-5'>機器</b><b class='flag-5'>學習</b>中常用的距離度量方法

    機器學習算法匯總 機器學習算法分類 機器學習算法模型

    機器學習算法匯總 機器學習算法分類 機器
    的頭像 發(fā)表于 08-17 16:11 ?1550次閱讀

    機器學習算法總結 機器學習算法是什么 機器學習算法優(yōu)缺點

    機器學習算法總結 機器學習算法是什么?機器
    的頭像 發(fā)表于 08-17 16:11 ?2479次閱讀

    機器學習算法入門 機器學習算法介紹 機器學習算法對比

    ,討論一些主要的機器學習算法,以及比較它們之間的優(yōu)缺點,以便于您選擇適合算法。 一、機器
    的頭像 發(fā)表于 08-17 16:27 ?1265次閱讀

    機器學習有哪些算法機器學習分類算法有哪些?機器學習預判有哪些算法

    機器學習有哪些算法?機器學習分類算法有哪些?機器
    的頭像 發(fā)表于 08-17 16:30 ?2403次閱讀