回歸問(wèn)題的條件/前提:
1) 收集的數(shù)據(jù)
2) 假設(shè)的模型,即一個(gè)函數(shù),這個(gè)函數(shù)里含有未知的參數(shù),通過(guò)學(xué)習(xí),可以估計(jì)出參數(shù)。然后利用這個(gè)模型去預(yù)測(cè)/分類新的數(shù)據(jù)。
1. 線性回歸
假設(shè) 特征 和 結(jié)果 都滿足線性。即不大于一次方。這個(gè)是針對(duì) 收集的數(shù)據(jù)而言。
收集的數(shù)據(jù)中,每一個(gè)分量,就可以看做一個(gè)特征數(shù)據(jù)。每個(gè)特征至少對(duì)應(yīng)一個(gè)未知的參數(shù)。這樣就形成了一個(gè)線性模型函數(shù),向量表示形式:
這個(gè)就是一個(gè)組合問(wèn)題,已知一些數(shù)據(jù),如何求里面的未知參數(shù),給出一個(gè)最優(yōu)解。 一個(gè)線性矩陣方程,直接求解,很可能無(wú)法直接求解。有唯一解的數(shù)據(jù)集,微乎其微。
基本上都是解不存在的超定方程組。因此,需要退一步,將參數(shù)求解問(wèn)題,轉(zhuǎn)化為求最小誤差問(wèn)題,求出一個(gè)最接近的解,這就是一個(gè)松弛求解。
求一個(gè)最接近解,直觀上,就能想到,誤差最小的表達(dá)形式。仍然是一個(gè)含未知參數(shù)的線性模型,一堆觀測(cè)數(shù)據(jù),其模型與數(shù)據(jù)的誤差最小的形式,模型與數(shù)據(jù)差的平方和最?。?/p>
這就是損失函數(shù)的來(lái)源。接下來(lái),就是求解這個(gè)函數(shù)的方法,有最小二乘法,梯度下降法。
最小二乘法
是一個(gè)直接的數(shù)學(xué)求解公式,不過(guò)它要求X是列滿秩的,
梯度下降法
分別有梯度下降法,批梯度下降法,增量梯度下降。本質(zhì)上,都是偏導(dǎo)數(shù),步長(zhǎng)/最佳學(xué)習(xí)率,更新,收斂的問(wèn)題。這個(gè)算法只是最優(yōu)化原理中的一個(gè)普通的方法,可以結(jié)合最優(yōu)化原理來(lái)學(xué),就容易理解了。
2. 邏輯回歸
邏輯回歸與線性回歸的聯(lián)系、異同?
邏輯回歸的模型 是一個(gè)非線性模型,sigmoid函數(shù),又稱邏輯回歸函數(shù)。但是它本質(zhì)上又是一個(gè)線性回歸模型,因?yàn)槌igmoid映射函數(shù)關(guān)系,其他的步驟,算法都是線性回歸的??梢哉f(shuō),邏輯回歸,都是以線性回歸為理論支持的。
只不過(guò),線性模型,無(wú)法做到sigmoid的非線性形式,sigmoid可以輕松處理0/1分類問(wèn)題。
另外它的推導(dǎo)含義:仍然與線性回歸的最大似然估計(jì)推導(dǎo)相同,最大似然函數(shù)連續(xù)積(這里的分布,可以使伯努利分布,或泊松分布等其他分布形式),求導(dǎo),得損失函數(shù)。
邏輯回歸函數(shù)
表現(xiàn)了0,1分類的形式。
應(yīng)用舉例:
是否垃圾郵件分類?
是否腫瘤、癌癥診斷?
是否金融欺詐?
3. 一般線性回歸
線性回歸 是以 高斯分布 為誤差分析模型; 邏輯回歸 采用的是 伯努利分布 分析誤差。
而高斯分布、伯努利分布、貝塔分布、迪特里特分布,都屬于指數(shù)分布。
而一般線性回歸,在x條件下,y的概率分布 p(y|x) 就是指 指數(shù)分布。
經(jīng)歷最大似然估計(jì)的推導(dǎo),就能導(dǎo)出一般線性回歸的 誤差分析模型(最小化誤差模型)。
softmax回歸就是 一般線性回歸的一個(gè)例子。
有監(jiān)督學(xué)習(xí)回歸,針對(duì)多類問(wèn)題(邏輯回歸,解決的是二類劃分問(wèn)題),如數(shù)字字符的分類問(wèn)題,0-9,10個(gè)數(shù)字,y值有10個(gè)可能性。
而這種可能的分布,是一種指數(shù)分布。而且所有可能的和 為1,則對(duì)于一個(gè)輸入的結(jié)果,其結(jié)果可表示為:
參數(shù)是一個(gè)k維的向量。
而代價(jià)函數(shù):
是邏輯回歸代價(jià)函數(shù)的推廣。
而對(duì)于softmax的求解,沒(méi)有閉式解法(高階多項(xiàng)方程組求解),仍用梯度下降法,或L-BFGS求解。
當(dāng)k=2時(shí),softmax退化為邏輯回歸,這也能反映softmax回歸是邏輯回歸的推廣。
線性回歸,邏輯回歸,softmax回歸 三者聯(lián)系,需要反復(fù)回味,想的多了,理解就能深入了。
4. 擬合:擬合模型/函數(shù)
由測(cè)量的數(shù)據(jù),估計(jì)一個(gè)假定的模型/函數(shù)。如何擬合,擬合的模型是否合適?可分為以下三類
合適擬合
欠擬合
過(guò)擬合
看過(guò)一篇文章(附錄)的圖示,理解起來(lái)很不錯(cuò):
欠擬合:
合適的擬合
過(guò)擬合
過(guò)擬合的問(wèn)題如何解決?
問(wèn)題起源?模型太復(fù)雜,參數(shù)過(guò)多,特征數(shù)目過(guò)多。
方法: 1) 減少特征的數(shù)量,有人工選擇,或者采用模型選擇算法
2) 正則化,即保留所有特征,但降低參數(shù)的值的影響。正則化的優(yōu)點(diǎn)是,特征很多時(shí),每個(gè)特征都會(huì)有一個(gè)合適的影響因子。
5. 概率解釋:線性回歸中為什么選用平方和作為誤差函數(shù)?
假設(shè)模型結(jié)果與測(cè)量值 誤差滿足,均值為0的高斯分布,即正態(tài)分布。這個(gè)假設(shè)是靠譜的,符合一般客觀統(tǒng)計(jì)規(guī)律。
數(shù)據(jù)x與y的條件概率:
若使 模型與測(cè)量數(shù)據(jù)最接近,那么其概率積就最大。概率積,就是概率密度函數(shù)的連續(xù)積,這樣,就形成了一個(gè)最大似然函數(shù)估計(jì)。對(duì)最大似然函數(shù)估計(jì)進(jìn)行推導(dǎo),就得出了求導(dǎo)后結(jié)果: 平方和最小公式
6. 參數(shù)估計(jì) 與 數(shù)據(jù)的關(guān)系
擬合關(guān)系
7. 錯(cuò)誤函數(shù)/代價(jià)函數(shù)/損失函數(shù):
線性回歸中采用平方和的形式,一般都是由模型條件概率的最大似然函數(shù) 概率積最大值,求導(dǎo),推導(dǎo)出來(lái)的。
統(tǒng)計(jì)學(xué)中,損失函數(shù)一般有以下幾種:
1) 0-1損失函數(shù)
L(Y,f(X))={1,0,Y≠f(X)Y=f(X)
2) 平方損失函數(shù)
L(Y,f(X))=(Y?f(X))2
3) 絕對(duì)損失函數(shù)
L(Y,f(X))=|Y?f(X)|
4) 對(duì)數(shù)損失函數(shù)
L(Y,P(Y|X))=?logP(Y|X)
損失函數(shù)越小,模型就越好,而且損失函數(shù) 盡量 是一個(gè)凸函數(shù),便于收斂計(jì)算。
線性回歸,采用的是平方損失函數(shù)。而邏輯回歸采用的是 對(duì)數(shù) 損失函數(shù)。 這些僅僅是一些結(jié)果,沒(méi)有推導(dǎo)。
8. 正則化:
為防止過(guò)度擬合的模型出現(xiàn)(過(guò)于復(fù)雜的模型),在損失函數(shù)里增加一個(gè)每個(gè)特征的懲罰因子。這個(gè)就是正則化。如正則化的線性回歸 的 損失函數(shù):
lambda就是懲罰因子。
正則化是模型處理的典型方法。也是結(jié)構(gòu)風(fēng)險(xiǎn)最小的策略。在經(jīng)驗(yàn)風(fēng)險(xiǎn)(誤差平方和)的基礎(chǔ)上,增加一個(gè)懲罰項(xiàng)/正則化項(xiàng)。
線性回歸的解,也從
θ=(XTX)?1XTy
轉(zhuǎn)化為
括號(hào)內(nèi)的矩陣,即使在樣本數(shù)小于特征數(shù)的情況下,也是可逆的。
邏輯回歸的正則化:
從貝葉斯估計(jì)來(lái)看,正則化項(xiàng)對(duì)應(yīng)模型的先驗(yàn)概率,復(fù)雜模型有較大先驗(yàn)概率,簡(jiǎn)單模型具有較小先驗(yàn)概率。這個(gè)里面又有幾個(gè)概念。
什么是結(jié)構(gòu)風(fēng)險(xiǎn)最小化?先驗(yàn)概率?模型簡(jiǎn)單與否與先驗(yàn)概率的關(guān)系?
經(jīng)驗(yàn)風(fēng)險(xiǎn)、期望風(fēng)險(xiǎn)、經(jīng)驗(yàn)損失、結(jié)構(gòu)風(fēng)險(xiǎn)
期望風(fēng)險(xiǎn)(真實(shí)風(fēng)險(xiǎn)),可理解為 模型函數(shù)固定時(shí),數(shù)據(jù) 平均的 損失程度,或“平均”犯錯(cuò)誤的程度。 期望風(fēng)險(xiǎn)是依賴損失函數(shù)和概率分布的。
只有樣本,是無(wú)法計(jì)算期望風(fēng)險(xiǎn)的。
所以,采用經(jīng)驗(yàn)風(fēng)險(xiǎn),對(duì)期望風(fēng)險(xiǎn)進(jìn)行估計(jì),并設(shè)計(jì)學(xué)習(xí)算法,使其最小化。即經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化(Empirical Risk Minimization)ERM,而經(jīng)驗(yàn)風(fēng)險(xiǎn)是用損失函數(shù)來(lái)評(píng)估的、計(jì)算的。
對(duì)于分類問(wèn)題,經(jīng)驗(yàn)風(fēng)險(xiǎn),就訓(xùn)練樣本錯(cuò)誤率。
對(duì)于函數(shù)逼近,擬合問(wèn)題,經(jīng)驗(yàn)風(fēng)險(xiǎn),就平方訓(xùn)練誤差。
對(duì)于概率密度估計(jì)問(wèn)題,ERM,就是最大似然估計(jì)法。
而經(jīng)驗(yàn)風(fēng)險(xiǎn)最小,并不一定就是期望風(fēng)險(xiǎn)最小,無(wú)理論依據(jù)。只有樣本無(wú)限大時(shí),經(jīng)驗(yàn)風(fēng)險(xiǎn)就逼近了期望風(fēng)險(xiǎn)。
如何解決這個(gè)問(wèn)題? 統(tǒng)計(jì)學(xué)習(xí)理論SLT,支持向量機(jī)SVM就是專門解決這個(gè)問(wèn)題的。
有限樣本條件下,學(xué)習(xí)出一個(gè)較好的模型。
由于有限樣本下,經(jīng)驗(yàn)風(fēng)險(xiǎn)Remp[f]無(wú)法近似期望風(fēng)險(xiǎn)R[f] 。因此,統(tǒng)計(jì)學(xué)習(xí)理論給出了二者之間的關(guān)系:R[f] 《= ( Remp[f] + e )
而右端的表達(dá)形式就是結(jié)構(gòu)風(fēng)險(xiǎn),是期望風(fēng)險(xiǎn)的上界。而e = g(h/n)是置信區(qū)間,是VC維h的增函數(shù),也是樣本數(shù)n的減函數(shù)。
VC維的定義在 SVM,SLT中有詳細(xì)介紹。e依賴h和n,若使期望風(fēng)險(xiǎn)最小,只需關(guān)心其上界最小,即e最小化。所以,需要選擇合適的h和n。這就是結(jié)構(gòu)風(fēng)險(xiǎn)最小化Structure Risk Minimization,SRM.
SVM就是SRM的近似實(shí)現(xiàn),SVM中的概念另有一大筐。就此打住。
1范數(shù),2范數(shù) 的物理意義:
范數(shù),能將一個(gè)事物,映射到非負(fù)實(shí)數(shù),且滿足非負(fù)性,齊次性,三角不等式。是一個(gè)具有“長(zhǎng)度”概念的函數(shù)。
1范數(shù)為什么能得到稀疏解?
壓縮感知理論,求解與重構(gòu),求解一個(gè)L1范數(shù)正則化的最小二乘問(wèn)題。其解正是 欠定線性系統(tǒng)的解。
2范數(shù)為什么能得到最大間隔解?
2范數(shù)代表能量的度量單位,用來(lái)重構(gòu)誤差。
以上幾個(gè)概念理解需要補(bǔ)充。
9. 最小描述長(zhǎng)度準(zhǔn)則:
即一組實(shí)例數(shù)據(jù),存儲(chǔ)時(shí),利用一模型,編碼壓縮。模型長(zhǎng)度,加上壓縮后長(zhǎng)度,即為該數(shù)據(jù)的總的描述長(zhǎng)度。最小描述長(zhǎng)度準(zhǔn)則,就是選擇 總的描述長(zhǎng)度最小的模型。
最小描述長(zhǎng)度MDL準(zhǔn)則,一個(gè)重要特性就是避免過(guò)度擬合現(xiàn)象。
如利用貝葉斯網(wǎng)絡(luò),壓縮數(shù)據(jù),一方面, 模型自身描述長(zhǎng)度 隨模型復(fù)雜度的增加而增加 ; 另一方面, 對(duì)數(shù)據(jù)集描述的長(zhǎng)度隨模型復(fù)雜度的增加而下降。因此, 貝葉斯網(wǎng)絡(luò)的 MD L總是力求在模型精度和模型復(fù)雜度之間找到平衡。當(dāng)模型過(guò)于復(fù)雜時(shí),最小描述長(zhǎng)度準(zhǔn)則就會(huì)其作用,限制復(fù)雜程度。
奧卡姆剃刀原則:
如果你有兩個(gè)原理,它們都能解釋觀測(cè)到的事實(shí),那么你應(yīng)該使用簡(jiǎn)單的那個(gè),直到發(fā)現(xiàn)更多的證據(jù)。
萬(wàn)事萬(wàn)物應(yīng)該盡量簡(jiǎn)單,而不是更簡(jiǎn)單。
11. 凸松弛技術(shù):
將組合優(yōu)化問(wèn)題,轉(zhuǎn)化為易于求解極值點(diǎn)的凸優(yōu)化技術(shù)。凸函數(shù)/代價(jià)函數(shù)的推導(dǎo),最大似然估計(jì)法。
12. 牛頓法求解 最大似然估計(jì)
前提條件:求導(dǎo)迭代,似然函數(shù)可導(dǎo),且二階可導(dǎo)。
迭代公式:
若是 向量形式,
H就是 n*n 的hessian矩陣了。
特征:當(dāng)靠近極值點(diǎn)時(shí),牛頓法能快速收斂,而在遠(yuǎn)離極值點(diǎn)的地方,牛頓法可能不收斂。 這個(gè)的推導(dǎo)?
這點(diǎn)是與梯度下降法的收斂特征是相反的。
線性與非線性:
線性,一次函數(shù);非線性,輸入、輸出不成正比,非一次函數(shù)。
線性的局限性:xor問(wèn)題。線性不可分,形式:
x 0
0 x
而線性可分,是只用一個(gè)線性函數(shù),將數(shù)據(jù)分類。線性函數(shù),直線。
線性無(wú)關(guān):各個(gè)獨(dú)立的特征,獨(dú)立的分量,無(wú)法由其他分量或特征線性表示。
核函數(shù)的物理意義:
映射到高維,使其變得線性可分。什么是高維?如一個(gè)一維數(shù)據(jù)特征x,轉(zhuǎn)換為(x,x^2, x^3),就成為了一個(gè)三維特征,且線性無(wú)關(guān)。一個(gè)一維特征線性不可分的特征,在高維,就可能線性可分了。
邏輯回歸logicalistic regression 本質(zhì)上仍為線性回歸,為什么被單獨(dú)列為一類?
其存在一個(gè)非線性的映射關(guān)系,處理的一般是二元結(jié)構(gòu)的0,1問(wèn)題,是線性回歸的擴(kuò)展,應(yīng)用廣泛,被單獨(dú)列為一類。
而且如果直接應(yīng)用線性回歸來(lái)擬合 邏輯回歸數(shù)據(jù),就會(huì)形成很多局部最小值。是一個(gè)非凸集,而線性回歸損失函數(shù) 是一個(gè) 凸函數(shù),即最小極值點(diǎn),即是全局極小點(diǎn)。模型不符。
若采用 邏輯回歸的 損失函數(shù),損失函數(shù)就能形成一個(gè) 凸函數(shù)。
多項(xiàng)式樣條函數(shù)擬合
多項(xiàng)式擬合,模型是一個(gè)多項(xiàng)式形式;樣條函數(shù),模型不僅連續(xù),而且在邊界處,高階導(dǎo)數(shù)也是連續(xù)的。好處:是一條光滑的曲線,能避免邊界出現(xiàn)震蕩的形式出現(xiàn)(龍格線性)
以下是幾個(gè)需慢慢深入理解的概念:
無(wú)結(jié)構(gòu)化預(yù)測(cè)模型
結(jié)構(gòu)化預(yù)測(cè)模型
什么是結(jié)構(gòu)化問(wèn)題?
adaboost, svm, lr 三個(gè)算法的關(guān)系。
三種算法的分布對(duì)應(yīng) exponential loss(指數(shù) 損失函數(shù)), hinge loss, log loss(對(duì)數(shù)損失函數(shù)), 無(wú)本質(zhì)區(qū)別。應(yīng)用凸上界取代0、1損失,即凸松弛技術(shù)。從組合優(yōu)化到凸集優(yōu)化問(wèn)題。凸函數(shù),比較容易計(jì)算極值點(diǎn)。
評(píng)論