前言
機(jī)器學(xué)習(xí)是什么,是用來干什么的?
機(jī)器學(xué)習(xí)就是樣本中有大量的x(特征量)和y(目標(biāo)變量)然后求這個(gè)function。
機(jī)器學(xué)習(xí)是讓機(jī)器尋找函數(shù)Y=f(X)的過程,使得當(dāng)我們給定一個(gè)X時(shí),會(huì)返回我們想要得到的Y值。
例:
房?jī)r(jià)預(yù)測(cè):X:位置、層數(shù) -》 Y:xxxx元/平
相親預(yù)測(cè):X:高富帥、矮矬窮 -》 Y:見、不見
車牌識(shí)別:X:(車牌圖片)-》 Y:車牌號(hào)碼
機(jī)器翻譯:X:(中文) -》 Y:(英文)
語(yǔ)音識(shí)別:X:(一段語(yǔ)音)-》 Y:(一段文字)
聊天機(jī)器人:X:How are you -》 Y:IM fine
一、機(jī)器學(xué)習(xí)
大致可以把機(jī)器學(xué)習(xí)分為Supervised learning(監(jiān)督學(xué)習(xí))和Unsupervised learning(非監(jiān)督學(xué)習(xí))兩類。兩者區(qū)別在于訓(xùn)練樣本。
監(jiān)督學(xué)習(xí)( supervised learning): 這種方法使用已標(biāo)記數(shù)據(jù)來學(xué)習(xí),它使用的標(biāo)記數(shù)據(jù)可以是用戶對(duì)電影的評(píng)級(jí)(對(duì)推薦來說)、電影標(biāo)簽(對(duì)分類來說)或是收入數(shù)字(對(duì)回歸預(yù)測(cè)來說)。
無(wú)監(jiān)督學(xué)習(xí)( unsupervised learning): 一些模型的學(xué)習(xí)過程不需要標(biāo)記數(shù)據(jù),我們稱其為無(wú)監(jiān)督學(xué)習(xí)。這類模型試圖學(xué)習(xí)或是提取數(shù)據(jù)背后的結(jié)構(gòu)或從中抽取最為重要的特征。
監(jiān)督學(xué)習(xí)多用于回歸分析(求解是連續(xù)值,比如某一區(qū)間)和分類問題(求解是離散值,比如對(duì)錯(cuò))。非監(jiān)督學(xué)習(xí)初步多用于聚類算法(群分析)。
1. 監(jiān)督學(xué)習(xí)
1.1 回歸分析
初識(shí):
“回歸于事物本來的面目”
出自高爾頓種豆子的實(shí)驗(yàn),通過大量數(shù)據(jù)統(tǒng)計(jì),他發(fā)現(xiàn)個(gè)體小的豆子往往傾向于產(chǎn)生比其更大的子代,而個(gè)體大的豆子則傾向于產(chǎn)生比其小的子代,然后高爾頓認(rèn)為這是由于新個(gè)體在向這種豆子的平均尺寸“回歸”,大概的意思就是事物總是傾向于朝著某種“平均”發(fā)展,也可以說是回歸于事物本來的面目。
進(jìn)階:
線性回歸:
即y=ax+b,因變量和自變量為線性關(guān)系,輸出y為一具體數(shù)值,例如房?jī)r(jià)預(yù)測(cè)中的房?jī)r(jià),產(chǎn)量預(yù)測(cè)中的產(chǎn)量等等,主要用于預(yù)測(cè)某一具體數(shù)值。
邏輯回歸:
一個(gè)被logistic方程(sigmoid函數(shù),如下圖)歸一化后的線性回歸,將線性回歸輸出的很大范圍的數(shù),壓縮到0和1之間,這樣的輸出值表達(dá)為某一類別的概率,主要用于二分類問題。
1.2 決策樹
初識(shí):
相親預(yù)測(cè):
決策樹分類的思想類似于找對(duì)象?,F(xiàn)想象一個(gè)女孩的母親要給這個(gè)女孩介紹男朋友,于是有了下面的對(duì)話:
女兒:多大年紀(jì)了?
母親:26。
女兒:長(zhǎng)的帥不帥?
母親:挺帥的。
女兒:收入高不?
母親:不算很高,中等情況。
女兒:是公務(wù)員不?
母親:是,在稅務(wù)局上班呢。
女兒:那好,我去見見。
這個(gè)女孩的決策過程就是典型的分類樹決策。相當(dāng)于通過年齡、長(zhǎng)相、收入和是否公務(wù)員對(duì)將男人分為兩個(gè)類別:見和不見。
其中綠色節(jié)點(diǎn)表示判斷條件,橙色節(jié)點(diǎn)表示決策結(jié)果,箭頭表示在一個(gè)判斷條件在不同情況下的決策路徑。
進(jìn)階:
決策樹(decision tree)是一個(gè)樹結(jié)構(gòu)。其每個(gè)非葉節(jié)點(diǎn)表示一個(gè)特征屬性上的測(cè)試,每個(gè)分支代表這個(gè)特征屬性在某個(gè)值域上的輸出,而每個(gè)葉節(jié)點(diǎn)存放一個(gè)類別。使用決策樹進(jìn)行決策的過程就是從根節(jié)點(diǎn)開始,測(cè)試待分類項(xiàng)中相應(yīng)的特征屬性,并按照其值選擇輸出分支,直到到達(dá)葉子節(jié)點(diǎn),將葉子節(jié)點(diǎn)存放的類別作為決策結(jié)果。
1.3 隨機(jī)森林
初識(shí):
“三個(gè)臭皮匠頂過諸葛亮”
隨機(jī)森林中的每一棵決策樹可以理解為一個(gè)精通于某一個(gè)窄領(lǐng)域的專家,這樣在隨機(jī)森林中就有了很多個(gè)精通不同領(lǐng)域的專家,對(duì)一個(gè)新的問題(新的輸入數(shù)據(jù)),可以用不同的角度去看待它,最終由各個(gè)專家投票得到結(jié)果。
進(jìn)階:
隨機(jī)森林通過自助法(bootstrap)重采樣技術(shù),從原始訓(xùn)練樣本集N中有放回地重復(fù)隨機(jī)抽取k個(gè)樣本生成新的訓(xùn)練樣本集合,然后根據(jù)自助樣本集生成k個(gè)分類樹組成隨機(jī)森林,新數(shù)據(jù)的分類結(jié)果按分類樹投票多少形成的分?jǐn)?shù)而定。
隨機(jī)森林可以用于分類和回歸。當(dāng)因變量Y是分類變量時(shí),是分類;當(dāng)因變量Y是連續(xù)變量時(shí),是回歸。
1.4 樸素貝葉斯
初識(shí):
貝葉斯公式:
已知某種疾病的發(fā)病率是0.001,即1000人中會(huì)有1個(gè)人得病?,F(xiàn)有一種試劑可以檢驗(yàn)患者是否得病,它的準(zhǔn)確率是0.99,即在患者確實(shí)得病的情況下,它有99%的可能呈現(xiàn)陽(yáng)性。它的誤報(bào)率是5%,即在患者沒有得病的情況下,它有5%的可能呈現(xiàn)陽(yáng)性。現(xiàn)有一個(gè)病人的檢驗(yàn)結(jié)果為陽(yáng)性,請(qǐng)問他確實(shí)得病的可能性有多大?
P(A|B)約等于0.019。也就是說,即使檢驗(yàn)呈現(xiàn)陽(yáng)性,病人得病的概率:也只從0.1%增加到了2%左右。這就是所謂的“假陽(yáng)性”,即陽(yáng)性結(jié)果完全不足以說明病人得病。
進(jìn)階:
對(duì)于給出的待分類項(xiàng),求解在此項(xiàng)特征出現(xiàn)的條件下各個(gè)類別出現(xiàn)的概率,哪個(gè)最大,就認(rèn)為此待分類項(xiàng)屬于哪個(gè)類別。
比如輸入法里的錯(cuò)拼也能搜出正確的詞,根據(jù)輸入的字母及其周邊可能出現(xiàn)的字母出現(xiàn)的概率,推薦出最符合想輸入的詞組。
1.5 支持向量機(jī)
初識(shí):
一個(gè)普通的支持向量機(jī)(SVM)就是一條直線,用來完美劃分線性分割的兩類。但這又不是一條普通的直線,這是無(wú)數(shù)條可以分類的直線當(dāng)中最完美的,因?yàn)樗『迷趦蓚€(gè)類的中間,距離兩個(gè)類的點(diǎn)都一樣遠(yuǎn)。而所謂的支持向量就是這些離分界線最近的『點(diǎn)』。如果去掉這些點(diǎn),直線多半是要改變位置的??梢哉f是這些vectors(主,點(diǎn))support(謂,定義)了machine(賓,分類器)。
進(jìn)階:
在線性不可分的情況下,支持向量機(jī)通過某種事先選擇的非線性映射(核函數(shù))將輸入變量映射到一個(gè)高維特征空間,在這個(gè)空間中構(gòu)造最優(yōu)分類超平面。
2. 非監(jiān)督學(xué)習(xí)
2.1 Kmeans
初識(shí):
“人以類聚,物以群分”
例:你左手在地上撒一把鹽,右手在地上撒一把糖。假設(shè)你分不清鹽和糖,但是你分別是用左右手撒的,所以兩個(gè)東西位置不同,你就可以通過倆玩意的位置,判斷出兩個(gè)東西是兩類(左手撒的,右手撒的)。然而能不能區(qū)別出是糖還是鹽?不行。你只能分出這是兩類而已。但是分成兩類以后再去分析,就比撒地上一堆分析容易多了。
聚類分析主要就是把大類分為小類,然后再人工的對(duì)每一小類進(jìn)行分析。
進(jìn)階:
K-均值是把數(shù)據(jù)集按照k個(gè)簇分類,其中k是用戶給定的,其中每個(gè)簇是通過質(zhì)心來計(jì)算簇的中心點(diǎn)。
首先創(chuàng)建一個(gè)初始劃分,隨機(jī)地選擇 k 個(gè)對(duì)象(中心點(diǎn)),每個(gè)對(duì)象初始地代表了一個(gè)簇中心。對(duì)于其他的對(duì)象,根據(jù)其與各個(gè)簇中心的距離,將它們賦給最近的簇,然后重新計(jì)算簇的平均值,將每個(gè)簇的平均值重新作為中心點(diǎn),然后對(duì)對(duì)象進(jìn)行重新分配。這個(gè)過程不斷重復(fù),直到?jīng)]有簇中對(duì)象的變化。
上圖中,A,B,C,D,E是五個(gè)聚類點(diǎn),灰色的點(diǎn)是質(zhì)心點(diǎn),聚為兩類。
(1)隨機(jī)在圖中取K(這里K=2)個(gè)種子點(diǎn)。
(2)然后對(duì)圖中的所有點(diǎn)求到這K個(gè)種子點(diǎn)的距離,假如點(diǎn)Pi離種子點(diǎn)Si最近,那么Pi屬于Si點(diǎn)群。(上圖中,我們可以看到A,B屬于上面的種子點(diǎn),C,D,E屬于下面中部的種子點(diǎn))
(3)接下來,我們要移動(dòng)種子點(diǎn)到屬于他的“點(diǎn)群”的中心。(見圖上的第三步)
(4)然后重復(fù)第2)和第3)步,直到,種子點(diǎn)沒有移動(dòng)(我們可以看到圖中的第四步上面的種子點(diǎn)聚合了A,B,C,下面的種子點(diǎn)聚合了D,E)。
-
變量
+關(guān)注
關(guān)注
0文章
614瀏覽量
28964 -
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8503瀏覽量
134635
發(fā)布評(píng)論請(qǐng)先 登錄
一篇文章告訴你電性能測(cè)試是做什么的

綜合配線柜是干什么的
gtta光纜是干什么的
如果需要使用DMD進(jìn)行成像控制,需要用到哪些部件?
照明產(chǎn)品質(zhì)量分級(jí)認(rèn)證規(guī)則(學(xué)習(xí)用燈具)
傳統(tǒng)機(jī)器學(xué)習(xí)方法和應(yīng)用指導(dǎo)

PLM項(xiàng)目管理系統(tǒng)主要干什么?制造業(yè)企業(yè)的PLM應(yīng)用與效益

音頻子系統(tǒng)主要是用來做什么的,可以用來做PCM編碼器嗎?
安泰功率放大器是干什么的

電視上的usb是用來干什么的
VCA821給出的AGC電路,出來的波形奇奇怪怪的,為什么?
用TINA仿真LMH6505,TINA-TI如何導(dǎo)入SPICE模型?
浙江氣密性檢測(cè)設(shè)備主要是用來干什么的

評(píng)論