www.五月天五月天五月天五月天,裸体美女无遮挡国产,天天中文字幕综合网

提及機(jī)器學(xué)習(xí)，很多人會(huì)推薦斯坦福CSS 229。本文便對(duì)該課程做了系統(tǒng)的整理。包括監(jiān)督學(xué)習(xí)、非監(jiān)督學(xué)習(xí)以及深度學(xué)習(xí)。可謂是是學(xué)習(xí)ML的“掌上備忘錄”。

斯坦福CS229—機(jī)器學(xué)習(xí)：

監(jiān)督學(xué)習(xí)

非監(jiān)督學(xué)習(xí)

深度學(xué)習(xí)

機(jī)器學(xué)習(xí)備忘錄——監(jiān)督學(xué)習(xí)

監(jiān)督學(xué)習(xí)簡介

給定一組與輸出{y(1),...,y(m)}相關(guān)聯(lián)的數(shù)據(jù)點(diǎn){x(1),...,x(m)}，我們希望構(gòu)建一個(gè)能夠根據(jù)x值預(yù)測(cè)y值的分類器。

預(yù)測(cè)類型—下表歸納了不同類型的預(yù)測(cè)模型

模型類型—下表歸納了不同的模型

符號(hào)和概念

假設(shè)—記一個(gè)假設(shè)為hθ，且是我們選擇的一個(gè)模型。給定一組輸入數(shù)據(jù)x(i)，則模型預(yù)測(cè)輸出為hθ(x(i))。

損失函數(shù)—一個(gè)損失函數(shù)可表示為L:(z,y)∈R×Y?L(z,y)∈R，它將與實(shí)際數(shù)據(jù)值y對(duì)應(yīng)的預(yù)測(cè)值z(mì)作為輸入，并輸出它們之間的差異。常見的損失函數(shù)歸納如下：

成本函數(shù)—成本函數(shù)J通常用于評(píng)估模型的性能。用損失函數(shù)L定義如下:

梯度下降—若學(xué)習(xí)率表示為α∈R，則用學(xué)習(xí)率和成本函數(shù)J來定義梯度下降的更新規(guī)則，可表示為如下公式：

隨機(jī)梯度下降法(SGD)是根據(jù)每個(gè)訓(xùn)練樣本對(duì)參數(shù)進(jìn)行更新，批量梯度下降法是對(duì)一批訓(xùn)練樣本進(jìn)行更新

似然—一個(gè)模型的似然（給定參數(shù)L(θ)），是通過將其最大化來尋找最優(yōu)參數(shù)θ。在實(shí)際過程中，我們一般采用對(duì)數(shù)似然?(θ)=log(L(θ))，因其優(yōu)化操作較為容易?？杀硎救缦拢?/p>

牛頓迭代法—是一種數(shù)值方法，用于找到一個(gè)θ，使?′(θ)=0成立。其更新規(guī)則如下：

線性模型

線性回歸

我們假設(shè)y|x；θ～N(μ,σ2)。

正規(guī)方程（Normal Equation）—記X為矩陣，能使成本函數(shù)最小化的θ的值是一個(gè)封閉的解：

最小均方算法（LMS）—記α為學(xué)習(xí)率，對(duì)一個(gè)包含m個(gè)數(shù)據(jù)點(diǎn)的訓(xùn)練集的LMS算法的更新規(guī)則（也叫Widrow-Hoff學(xué)習(xí)規(guī)則），如下所示：

局部加權(quán)回歸（LWR）—是線性回歸的一種變體，它將每個(gè)訓(xùn)練樣本的成本函數(shù)加權(quán)為w(i)(x)，用參數(shù)τ∈R可定義為：

分類和邏輯回歸

Sigmoid函數(shù)—即S型函數(shù)，可定義為：

邏輯回歸—一般用于處理二分類問題。假設(shè)y|x;θ～Bernoulli(?)，可有如下形式：

Softmax回歸—是邏輯回歸的推廣，一般用于處理多分類問題，可表示為：

廣義線性模型

指數(shù)族（Exponential family）—若一類分布可以用一個(gè)自然參數(shù)來表示，那么這類分布可以叫做指數(shù)族，也稱作正則參數(shù)或連結(jié)函數(shù)，如下所示：

下表是常見的一些指數(shù)分布：

廣義線性模型的假設(shè)—廣義線性模型旨在預(yù)測(cè)一個(gè)隨機(jī)變量y，作為x∈Rn+1的函數(shù)，并且以來于以下3個(gè)假設(shè)：

支持向量機(jī)

通俗來講，支持向量機(jī)就是要找到一個(gè)超平面，對(duì)樣本進(jìn)行分割。

最優(yōu)邊緣分類器—以h表示，可定義為：

其中，(w,b)∈Rn×R是如下最優(yōu)問題的解：

Hinge損失—用于SVM的設(shè)置，定義如下：

核（Kernel）—給定一個(gè)特征映射?，核可以表示為：

在實(shí)際問題當(dāng)中，高斯核是較為常用的。

我們一般不需要知道XX的顯式映射，只需要知道K(x,z)的值即可

拉格朗日—我們定義拉格朗日L(w,b)為：

生成學(xué)習(xí)

生成模型首先嘗試通過估計(jì)P(x|y)來了解數(shù)據(jù)是如何生成的，而后我們可以用貝葉斯規(guī)則來估計(jì)P(y|x)。

高斯判別分析

Setting—高斯判別分析假設(shè)存在y、x|y=0和x|y=1，滿足：

估計(jì)—下表總結(jié)了最大化似然時(shí)的估計(jì)：

樸素貝葉斯

假設(shè)—樸素貝葉斯模型假設(shè)每個(gè)數(shù)據(jù)點(diǎn)的特征都是獨(dú)立的:

解決方案—當(dāng)k∈{0,1},l∈[[1,L]]時(shí)，最大化對(duì)數(shù)似然給出了如下解決方案：

基于樹方法和集成方法

即可用于回歸，又可用于分類的方法。

決策樹—分類和回歸樹（CART）,非常具有可解釋性特征。

Boosting—其思想就是結(jié)合多個(gè)弱學(xué)習(xí)器，形成一個(gè)較強(qiáng)的學(xué)習(xí)器。

隨機(jī)森林—在樣本和所使用的特征上采用Bootstrap，與決策樹不同的是，其可解釋性較弱。

其它非參數(shù)方法

KNN—即k近鄰，數(shù)據(jù)點(diǎn)的響應(yīng)由其k個(gè)“鄰居”的性質(zhì)決定。

學(xué)習(xí)理論（Learning Theory）

Union Bound—令A(yù)1,...,Ak為k個(gè)事件，則有：

Hoeffding inequality—刻畫的是某個(gè)事件的真實(shí)概率與m各不同的Bernoulli試驗(yàn)中觀察到的頻率之間的差異。

訓(xùn)練誤差—給定一個(gè)分類器h，我們將訓(xùn)練誤差定義為error??(h)，也被稱作經(jīng)驗(yàn)風(fēng)險(xiǎn)或經(jīng)驗(yàn)誤差，如下所示：

Probably Approximately Correct—即PAC，是一個(gè)框架，在此框架下，許多關(guān)于學(xué)習(xí)理論的結(jié)果都得到了證明，并且有以下一組假設(shè):

訓(xùn)練和測(cè)試集遵循相同的分布

訓(xùn)練樣本是獨(dú)立繪制的

除上述學(xué)習(xí)理論之外，還有Shattering、上限定理、VC維、Theorem (Vapnik)等概念，讀者若感興趣，可由文末鏈接進(jìn)入原文做進(jìn)一步了解。

機(jī)器學(xué)習(xí)備忘錄——非監(jiān)督學(xué)習(xí)

非監(jiān)督學(xué)習(xí)簡介

無監(jiān)督學(xué)習(xí)旨在無標(biāo)記數(shù)據(jù)中發(fā)現(xiàn)規(guī)律。

詹森不等式—令f為凸函數(shù)、X為一個(gè)隨機(jī)變量。將會(huì)有如下不等式：

聚類

最大期望算法（EM）

隱變量—是指使估計(jì)問題難以解決的隱藏/未觀察到的變量，通常表示為z。下表是涉及到隱變量的常用設(shè)置：

算法—EM算法通過重復(fù)構(gòu)建似然下界（E-step）并優(yōu)化該下界（M-step）來給出通過MLE估計(jì)參數(shù)θ的有效方法，如下：

k-means聚類

令c(i)表示為數(shù)據(jù)點(diǎn)i的類，μj為類j的中心。

算法—在隨機(jī)初始化聚類質(zhì)心μ1,μ2,...,μk∈Rn之后，k均值算法重復(fù)以下步驟直到收斂：

失真函數(shù)（distortion function）—為了查看算法是否收斂，定義如下的失真函數(shù):

分層聚類

算法—它是一種聚類算法，采用聚合分層方法，以連續(xù)方式構(gòu)建嵌套的聚類。

類型—為了優(yōu)化不同的目標(biāo)函數(shù)，有不同種類的層次聚類算法，如下表所示:

聚類評(píng)估指標(biāo)

在無監(jiān)督的學(xué)習(xí)環(huán)境中，通常很難評(píng)估模型的性能，因?yàn)闆]有像監(jiān)督學(xué)習(xí)環(huán)境中那樣的ground-truth標(biāo)簽。

輪廓系數(shù)—記a為一個(gè)樣本和同一個(gè)類中其它點(diǎn)距離的平均，b為一個(gè)樣本與它最近的類中所有點(diǎn)的距離的平均。一個(gè)樣本的輪廓系數(shù)可定義為：

Calinski-Harabaz指數(shù)—記k為類的數(shù)量，XX和XX是類間、類內(nèi)矩陣的dispersion矩陣分別表示為：

Calinski-Harabaz指數(shù)s(k)表明了聚類模型對(duì)聚類的定義的好壞，得分越高，聚類就越密集，分離得也越好。定義如下:

降維

主成分分析

主成分分析是一種統(tǒng)計(jì)方法。通過正交變換將一組可能存在相關(guān)性的變量轉(zhuǎn)換為一組線性不相關(guān)的變量，轉(zhuǎn)換后的這組變量叫主成分。

特征值、特征向量—給定一個(gè)矩陣A∈Rn×n，如果存在一個(gè)向量z∈Rn?{0}，那么λ就叫做A的特征值，而z稱為特征向量：

普定理（Spectral theorem）—令A(yù)∈Rn×n。若A是對(duì)稱的，那么A可以通過實(shí)際正交矩陣U∈Rn×n對(duì)角化。記Λ=diag(λ1,...,λn)，我們有：

算法—主成分分析(PCA)過程是一種降維技術(shù)，通過使數(shù)據(jù)的方差最大化，在k維上投影數(shù)據(jù)，方法如下:

第一步：將數(shù)據(jù)標(biāo)準(zhǔn)化，使其均值為0，標(biāo)準(zhǔn)差為1。

第二步：計(jì)算

第三步：計(jì)算Σ的k個(gè)正交主特征向量，即k個(gè)最大特征值的正交特征向量。

第四步：在spanR(u1,...,uk)上投射數(shù)據(jù)。

這個(gè)過程使所有k維空間的方差最大化。

獨(dú)立分量分析

這是一種尋找潛在生成源的技術(shù)。

假設(shè)—我們假設(shè)數(shù)據(jù)x是通過混合和非奇異矩陣A，由n維源向量s=(s1,...,sn)生成的（其中，si是獨(dú)立的隨機(jī)變量），那么：

目標(biāo)是找到混合矩陣W=A?1

Bell和Sejnowski的ICA算法—該算法通過以下步驟找到解混矩陣W：

將x=As=W?1sx=As=W?1s的概率表示為：

記g為sigmoid函數(shù)，給定我們的訓(xùn)練數(shù)據(jù){x(i),i∈[[1,m]]}，則對(duì)數(shù)似然可表示為：

因此，隨機(jī)梯度上升學(xué)習(xí)規(guī)則是對(duì)于每個(gè)訓(xùn)練樣本x(i)，我們更新W如下：

機(jī)器學(xué)習(xí)備忘錄——深度學(xué)習(xí)

神經(jīng)網(wǎng)絡(luò)

神經(jīng)網(wǎng)絡(luò)是一類用層構(gòu)建的模型。常用的神經(jīng)網(wǎng)絡(luò)類型包括卷積神經(jīng)網(wǎng)絡(luò)和遞歸神經(jīng)網(wǎng)絡(luò)。

結(jié)構(gòu)—關(guān)于神經(jīng)網(wǎng)絡(luò)架構(gòu)的描述如下圖所示:

記i為網(wǎng)絡(luò)中的第i層，j為一個(gè)層中第j個(gè)隱含單元，這有：

激活函數(shù)—在隱含單元的末端使用激活函數(shù)向模型引入非線性復(fù)雜性。以下是最常見的幾種:

交叉熵?fù)p失-在神經(jīng)網(wǎng)絡(luò)中，交叉熵?fù)p失L(z,y)是常用的，定義如下:

學(xué)習(xí)率—通常被記作α或η，可表明在哪一步權(quán)重得到了更新。這可以被修正或自適應(yīng)的改變。目前最流行的方法是Adam，這是一種適應(yīng)學(xué)習(xí)率的方法。

反向傳播—是一種通過考慮實(shí)際輸出和期望輸出來更新神經(jīng)網(wǎng)絡(luò)權(quán)重的方法。關(guān)于權(quán)重w的導(dǎo)數(shù)是用鏈?zhǔn)椒▌t計(jì)算的，它的形式如下:

因此，權(quán)重更新如下：

更新權(quán)重—在神經(jīng)網(wǎng)絡(luò)中，權(quán)重的更新方式如下：

第一步：對(duì)訓(xùn)練數(shù)據(jù)取一個(gè)batch；

第二步：進(jìn)行正向傳播以獲得相應(yīng)的損失；

第三步：反向傳播損失，得到梯度；

第四步：使用梯度更新網(wǎng)絡(luò)的權(quán)重。

Dropout—是一種通過在神經(jīng)網(wǎng)絡(luò)中刪除單元來防止過度擬合訓(xùn)練數(shù)據(jù)的技術(shù)。

卷積神經(jīng)網(wǎng)絡(luò)

超參數(shù)—在卷積神經(jīng)網(wǎng)絡(luò)中，修正了以下超參數(shù)：

層的類型—在卷積神經(jīng)網(wǎng)絡(luò)中，我們可能遇到以下類型的層：

卷積層要求—記W為輸入量大小，F(xiàn)為卷積層神經(jīng)元大小，P是zero padding的數(shù)量，那么在給定體積（volumn）內(nèi)的神經(jīng)元數(shù)量N是這樣的:

Batch歸一化—記γ,β為我們想要更正的batch的均值和方差，則：

它通常是在完全連接/卷積層和非線性層之前完成的，目的是提高學(xué)習(xí)率并減少對(duì)初始化的強(qiáng)烈依賴。

遞歸神經(jīng)網(wǎng)絡(luò)

gate的類型—以下是在典型遞歸神經(jīng)網(wǎng)絡(luò)中存在的不同類型的gate：

LSTM—該網(wǎng)絡(luò)是一種RNN模型，它通過添加“forget” gates來避免梯度消失問題。

強(qiáng)化學(xué)習(xí)與控制

強(qiáng)化學(xué)習(xí)的目標(biāo)是讓智能體學(xué)會(huì)如何在環(huán)境中進(jìn)化。

馬爾科夫決策過程—即MDP，是一個(gè)五元組(S,A,{Psa},γ,R)，其中：

S是一組狀態(tài)；

A是一組行為；

{Psa}是s∈S和a∈A的狀態(tài)轉(zhuǎn)換率；

γ∈[0,1]是discount系數(shù)；

R:S×A?R或R:S?R是算法要最大化的獎(jiǎng)勵(lì)函數(shù)

加粗：策略—是一個(gè)函數(shù)π:S?A，是將狀態(tài)映射到行為中。

加粗：Value Function—給定一個(gè)策略π和狀態(tài)s，可定義value functionVπ

為：

貝爾曼方程—最優(yōu)貝爾曼方程刻畫了最優(yōu)策略π的value function：

Value迭代算法—主要分為兩個(gè)步驟：

初始化value：

基于之前的value進(jìn)行迭代：

最大似然估計(jì)—狀態(tài)轉(zhuǎn)移概率的最大似然估計(jì)如下:

Q-Learning—是Q一種無模型估計(jì)，公式如下：

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

分類器

分類器

+關(guān)注

關(guān)注
0

文章
153

瀏覽量
13451
機(jī)器學(xué)習(xí)

機(jī)器學(xué)習(xí)

+關(guān)注

關(guān)注
66

文章
8503

瀏覽量
134620
深度學(xué)習(xí)

深度學(xué)習(xí)

+關(guān)注

關(guān)注
73

文章
5561

瀏覽量
122794