一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

機(jī)器學(xué)習(xí)實(shí)踐中的十條注意點(diǎn)

新機(jī)器視覺 ? 來源:上海數(shù)據(jù)分析 ? 作者:上海數(shù)據(jù)分析 ? 2022-09-22 15:21 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

對于開發(fā)人員而言,基于云的機(jī)器學(xué)習(xí)工具帶來了使用機(jī)器學(xué)習(xí)創(chuàng)造和提供新的功能的可能性。然而,開發(fā)者想要在它們的應(yīng)用程序中融入機(jī)器學(xué)習(xí),通常會犯一些錯誤,本文列了十條注意點(diǎn)以饗讀者。

在提供發(fā)現(xiàn)埋藏數(shù)據(jù)深層的模式的能力上,機(jī)器學(xué)習(xí)有著潛在的能力使得應(yīng)用程序更加的強(qiáng)大并且更能響應(yīng)用戶的需求。精心調(diào)校好的算法能夠從巨大的并且互不相同的數(shù)據(jù)源中提取價值,同時沒有人類思考和分析的限制。對于開發(fā)者而言,機(jī)器學(xué)習(xí)為應(yīng)用業(yè)務(wù)的關(guān)鍵分析提供了希望,從而實(shí)現(xiàn)從改善客戶體驗(yàn)到提供產(chǎn)品推薦上升至超個性化內(nèi)容服務(wù)的任何應(yīng)用程序。

像Amazon和Micorosoft這樣的云供應(yīng)商提供云功能的機(jī)器學(xué)習(xí)解決方案,承諾為開發(fā)者提供一個簡單的方法,使得機(jī)器學(xué)習(xí)的能力能夠融入到他們的應(yīng)用程序當(dāng)中,這也算是最近的頭條新聞了。承諾似乎很好,但開發(fā)者還需謹(jǐn)慎。

對于開發(fā)人員而言,基于云的機(jī)器學(xué)習(xí)工具帶來了使用機(jī)器學(xué)習(xí)創(chuàng)造和提供新的功能的可能性。然而,當(dāng)我們使用不當(dāng)時,這些工具會輸出不好的結(jié)果,用戶可能會因此而感到不安。測試過微軟年齡檢測機(jī)器學(xué)習(xí)工具( http://how-old.net/ )的人都會發(fā)現(xiàn),伴隨即插即用的易用性而來的是主要的精度問題——對于關(guān)鍵應(yīng)用程序或者是重大決策,它應(yīng)該不值得信賴。

想要在應(yīng)用程序中成功地融入機(jī)器學(xué)習(xí)的開發(fā)者,需要注意以下的一些關(guān)鍵要點(diǎn):

1.算法使用的數(shù)據(jù)越多,它的精度會更加準(zhǔn)確,所以如果可能要盡量避免抽樣

機(jī)器學(xué)習(xí)理論在預(yù)測誤差上有著非常直觀的描述。簡而言之,在機(jī)器學(xué)習(xí)模型和最優(yōu)預(yù)測(在理論上達(dá)到最佳可能的誤差)之間的預(yù)測誤差的差距可以被分解為三個部分:

由于沒有找到正確函數(shù)形式的模型的誤差

由于沒有找到最佳參數(shù)的模型的誤差

由于沒用使用足夠數(shù)據(jù)的模型的誤差

如果訓(xùn)練集有限,它可能無法支撐解決這個問題所需的模型復(fù)雜性。統(tǒng)計學(xué)的基本規(guī)律告訴我們,如果我們可以的話,應(yīng)該利用所有的數(shù)據(jù)而不是抽樣。

2. 對給定的問題選擇效果最好的機(jī)器學(xué)習(xí)算法是決定成敗的關(guān)鍵

例如,梯度提升樹(GBT)是一個非常受歡迎的監(jiān)督學(xué)習(xí)算法,由于其精度而被業(yè)內(nèi)開發(fā)人員廣泛使用。然而,盡管其高度受歡迎,我們也不能盲目的把這種算法應(yīng)用于任何問題上。相反,我們使用的算法應(yīng)該是能夠最佳地擬合數(shù)據(jù)特征同時能夠保證精度的算法。

為了證明這個觀點(diǎn),嘗試做這樣一個實(shí)驗(yàn),在數(shù)據(jù)集 the popular text categorization dataset rcv1上測試GBT算法和線性支持向量機(jī)(SVM)算法,并比較兩者的精度。我們觀察到在這個問題上,就錯誤率而言,線性SVM要優(yōu)于GBT算法。這是因?yàn)樵谖谋绢I(lǐng)域當(dāng)中,數(shù)據(jù)通常是高維的。一個線性分類器能夠在N-1維當(dāng)中完美的分離出N個樣本,所以,一個樣本模型在這種數(shù)據(jù)上通常表現(xiàn)的更好。此外,模型越簡單,通過利用有限的訓(xùn)練樣本來避免過擬合的方式學(xué)習(xí)參數(shù),并且提供一個精確的模型,產(chǎn)生的問題也會隨之越少。

另一方面,GBT是高度非線性的并且更加強(qiáng)大,但是在這種環(huán)境中卻更難學(xué)習(xí)并且更容易發(fā)生過擬合,往往結(jié)果精度也較低。

3. 為了得到一個更好的模型,必須選擇最佳的的算法和相關(guān)的參數(shù)

這對于非數(shù)據(jù)科學(xué)家而言可能不容易?,F(xiàn)代的機(jī)器學(xué)習(xí)算法有許多的參數(shù)可以調(diào)整。例如,對于流行的GBT算法單獨(dú)的就有十二個參數(shù)可以設(shè)置,其中包括如何控制樹的大小,學(xué)習(xí)率,行或列的采樣方法,損失函數(shù),正則化選項(xiàng)等等。一個特有的項(xiàng)目需要在給定的數(shù)據(jù)集上為每一個參數(shù)找到其最優(yōu)值并且達(dá)到最精準(zhǔn)的精度,這確實(shí)不是一件容易的事。但是為了得到最佳的結(jié)果,數(shù)據(jù)科學(xué)家需要訓(xùn)練大量的模型,而直覺和經(jīng)驗(yàn)會幫助他們根據(jù)交叉驗(yàn)證的得分,然后決定使用什么參數(shù)再次嘗試。

4. 機(jī)器學(xué)習(xí)模型會隨著好的數(shù)據(jù)而變得更好,錯誤的數(shù)據(jù)收集和數(shù)據(jù)處理會降低你建立預(yù)測和歸納的機(jī)器學(xué)習(xí)模型的能力

根據(jù)經(jīng)驗(yàn),建議仔細(xì)審查與主題相關(guān)的數(shù)據(jù),從而深入了解數(shù)據(jù)和幕后數(shù)據(jù)的生成過程。通常這個過程可以識別與記錄、特征、值或采樣相關(guān)的數(shù)據(jù)質(zhì)量問題。

5. 理解數(shù)據(jù)特征并改進(jìn)它們(通過創(chuàng)造新的特征或者去掉某個特征)對預(yù)測能力有著高度的影響

機(jī)器學(xué)習(xí)的一個基本任務(wù)就是找到能夠被機(jī)器學(xué)習(xí)算法充分利用的豐富特征空間來替代原始數(shù)據(jù)。例如,特征轉(zhuǎn)換是一種流行的方法,可以通過在原始數(shù)據(jù)的基礎(chǔ)上使用數(shù)學(xué)上的轉(zhuǎn)換提取新的特征來實(shí)現(xiàn)。最后的特征空間(也就是最后用來描述數(shù)據(jù)的特征)要能更好的捕獲數(shù)據(jù)的多復(fù)雜性(如非線性和多種特征之間的相互作用),這對于成功的學(xué)習(xí)過程至關(guān)重要。

6. 在應(yīng)用中,選擇合適的靈感來自商業(yè)價值的目標(biāo)函數(shù)/損失函數(shù)對于最后的成功至關(guān)重要

幾乎所有的機(jī)器學(xué)習(xí)算法最后都被當(dāng)成是一種優(yōu)化問題。根據(jù)業(yè)務(wù)的性質(zhì),合理設(shè)置或調(diào)整優(yōu)化的目標(biāo)函數(shù),是機(jī)器學(xué)習(xí)成功的關(guān)鍵。

以支持向量機(jī)為例,通過假設(shè)所有錯誤類型的權(quán)重相等,對一個二分類問題的泛化誤差進(jìn)行了優(yōu)化。這對損失敏感的問題并不合適,如故障檢測,其中某些類型的錯誤比重可能比其它類型的要高。在這種情況下,建議通過在特定的錯誤類型上,增加更多的懲罰來解釋它們的權(quán)重,從而調(diào)整SVM的損失函數(shù)。

7. 確保正確地處理訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)

如此當(dāng)在生產(chǎn)中部署該模型時,測試數(shù)據(jù)能夠模擬輸入數(shù)據(jù)。例如,我們可以看到,這對于時間依賴性數(shù)據(jù)是多么的重要。在這種情況下,使用標(biāo)準(zhǔn)的交叉驗(yàn)證方法進(jìn)行訓(xùn)練,調(diào)整,那么測試模型的結(jié)果可能會有偏差,甚至?xí)粶?zhǔn)確。這是因?yàn)樵趯?shí)施平臺上它不能準(zhǔn)確的模擬輸入數(shù)據(jù)的性質(zhì)。為了糾正這一點(diǎn),在部署時我們必須仿照模型來部署使用。我們應(yīng)該使用一個基于時間的交叉驗(yàn)證,用時間較新的數(shù)據(jù)來驗(yàn)證訓(xùn)練模型。

8. 部署前理解模型的泛化誤差

泛化誤差衡量模型在未知數(shù)據(jù)上的性能好壞。因?yàn)橐粋€模型在訓(xùn)練數(shù)據(jù)上的性能好并不意味著它在未知的數(shù)據(jù)上的表現(xiàn)也好。一個精心設(shè)計的模擬實(shí)際部署使用的模型評估過程,是估計模型泛化誤差所需要的。

一不留心就很容易違反交叉驗(yàn)證的規(guī)則,并且也沒有一種顯而易見的方法來表現(xiàn)交叉驗(yàn)證的非正確性,通常在你試圖尋找快捷方式計算時發(fā)生。在任何模型部署之前,有必要仔細(xì)注意交叉驗(yàn)證的正確性,以獲得部署性能的科學(xué)評估。

9. 知道如何處理非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)

如文本、時間序列、空間、圖形或者圖像數(shù)據(jù)。大多數(shù)機(jī)器學(xué)習(xí)算法在處理特征空間中的數(shù)據(jù)時,一個特征集代表一個對象,特征集的每一個元素都描述對象的一個特點(diǎn)。在實(shí)際當(dāng)中,數(shù)據(jù)引進(jìn)時并不是這種格式化的形式,往往來自于最原始的格式,并且最后都必須被改造成機(jī)器學(xué)習(xí)算法能夠識別的理想格式。比如,我們必須知道如何使用各種計算機(jī)視覺技術(shù)從圖像中提取特征或者如何將自然語言處理技術(shù)應(yīng)用于影片文本。

10. 學(xué)會將商業(yè)問題轉(zhuǎn)換成機(jī)器學(xué)習(xí)算法

一些重要的商業(yè)問題,比如欺詐檢測、產(chǎn)品推薦、廣告精準(zhǔn)投放,都有“標(biāo)準(zhǔn)”的機(jī)器學(xué)習(xí)表達(dá)形式并且在實(shí)踐當(dāng)中取得了合理的成就。即使對于這些眾所周知的問題,也還有鮮為人知但功能更強(qiáng)大的表達(dá)形式,從而帶來更高的預(yù)測精度。對于一般在博客和論壇中討論的小實(shí)例的商業(yè)問題,適當(dāng)?shù)臋C(jī)器學(xué)習(xí)方法則不太明顯。

如果你是一個開發(fā)者,學(xué)習(xí)這十個通往成功的訣竅可能似乎是一個艱難的任務(wù),但是不要?dú)怵H。事實(shí)上,開發(fā)者不是數(shù)據(jù)科學(xué)家。認(rèn)為開發(fā)人員可以充分利用所有的機(jī)學(xué)習(xí)工具是不公平的。但是這并不意味著開發(fā)人員沒有機(jī)會去學(xué)習(xí)一些有水準(zhǔn)的數(shù)據(jù)科學(xué)從而改進(jìn)他們的應(yīng)用。隨著適當(dāng)?shù)钠髽I(yè)解決方案和自動化程度的提高,開發(fā)人員可以做模型構(gòu)建到實(shí)施部署的一切事情,使用機(jī)器學(xué)習(xí)最佳實(shí)踐來保持高精度

自動化是在應(yīng)用程序中擴(kuò)展機(jī)器學(xué)習(xí)的關(guān)鍵。即使你能夠供得起一批小的數(shù)據(jù)科學(xué)家團(tuán)隊(duì)和開發(fā)者攜手合作,也沒有足夠的人才。像Skytree的AutoModel(自動化模型)能夠幫助開發(fā)者自動地確定最佳的參數(shù)并且使得算法得到最大的模型精度。一個易于使用的接口可以引導(dǎo)開發(fā)人員通過訓(xùn)練加工,調(diào)整并且測試模型來防止統(tǒng)計上的錯誤。

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 算法
    +關(guān)注

    關(guān)注

    23

    文章

    4709

    瀏覽量

    95353
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3518

    瀏覽量

    50405
  • 機(jī)器學(xué)習(xí)

    關(guān)注

    66

    文章

    8501

    瀏覽量

    134583

原文標(biāo)題:機(jī)器學(xué)習(xí)實(shí)踐中的10個小秘訣!

文章出處:【微信號:vision263com,微信公眾號:新機(jī)器視覺】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    【「# ROS 2智能機(jī)器人開發(fā)實(shí)踐」閱讀體驗(yàn)】視覺實(shí)現(xiàn)的基礎(chǔ)算法的應(yīng)用

    : 一、機(jī)器人視覺:從理論到實(shí)踐 第7章詳細(xì)介紹了ROS2在機(jī)器視覺領(lǐng)域的應(yīng)用,涵蓋了相機(jī)標(biāo)定、OpenCV集成、視覺巡線、二維碼識別以及深度學(xué)習(xí)目標(biāo)檢測等內(nèi)容。通過
    發(fā)表于 05-03 19:41

    【「# ROS 2智能機(jī)器人開發(fā)實(shí)踐」閱讀體驗(yàn)】機(jī)器人入門的引路書

    的限制和調(diào)控) 本書還有很多前沿技術(shù)項(xiàng)目的擴(kuò)展 比如神經(jīng)網(wǎng)絡(luò)識別例程,機(jī)器學(xué)習(xí)圖像識別的原理,yolo圖像追蹤的原理 機(jī)器學(xué)習(xí)訓(xùn)練三大點(diǎn)
    發(fā)表于 04-30 01:05

    【「# ROS 2智能機(jī)器人開發(fā)實(shí)踐」閱讀體驗(yàn)】+ROS2應(yīng)用案例

    的知識,還需要對ROS 2的節(jié)點(diǎn)通信和數(shù)據(jù)處理有一定的了解。通過實(shí)踐這一部分內(nèi)容,我掌握了如何在ROS 2實(shí)現(xiàn)二維碼識別,這對于提高機(jī)器人的智能性和交互性具有重要意義。 地圖構(gòu)建:SLAM技術(shù)
    發(fā)表于 04-27 11:42

    【「# ROS 2智能機(jī)器人開發(fā)實(shí)踐」閱讀體驗(yàn)】+內(nèi)容初識

    《ROS 2智能機(jī)器人開發(fā)實(shí)踐》內(nèi)容閱讀初體驗(yàn) 《ROS 2 智能機(jī)器人開發(fā)實(shí)踐》是一本針對 ROS 2(Robot Operating System 2)這一先進(jìn)
    發(fā)表于 04-27 11:24

    名單公布!【書籍評測活動NO.58】ROS 2智能機(jī)器人開發(fā)實(shí)踐

    ”社區(qū)負(fù)責(zé)人李喬龍老師共同撰寫了這本500頁的機(jī)器人入門者案頭手冊——《ROS 2智能機(jī)器人開發(fā)實(shí)踐》一書! 本書匯聚了作者過去幾年的機(jī)器
    發(fā)表于 03-03 14:18

    傳統(tǒng)機(jī)器學(xué)習(xí)方法和應(yīng)用指導(dǎo)

    在上一篇文章,我們介紹了機(jī)器學(xué)習(xí)的關(guān)鍵概念術(shù)語。在本文中,我們會介紹傳統(tǒng)機(jī)器學(xué)習(xí)的基礎(chǔ)知識和多種算法特征,供各位老師選擇。 01 傳統(tǒng)
    的頭像 發(fā)表于 12-30 09:16 ?1183次閱讀
    傳統(tǒng)<b class='flag-5'>機(jī)器</b><b class='flag-5'>學(xué)習(xí)</b>方法和應(yīng)用指導(dǎo)

    zeta在機(jī)器學(xué)習(xí)的應(yīng)用 zeta的優(yōu)缺點(diǎn)分析

    在探討ZETA在機(jī)器學(xué)習(xí)的應(yīng)用以及ZETA的優(yōu)缺點(diǎn)時,需要明確的是,ZETA一詞在不同領(lǐng)域可能有不同的含義和應(yīng)用。以下是根據(jù)不同領(lǐng)域的ZETA進(jìn)行的分析: 一、ZETA在機(jī)器
    的頭像 發(fā)表于 12-20 09:11 ?1121次閱讀

    繼電器測試的培訓(xùn)和學(xué)習(xí)資源有哪些推薦?

    地理解和應(yīng)用繼電器測試技術(shù)。 實(shí)踐操作:除了理論學(xué)習(xí),實(shí)踐操作也是掌握繼電器測試技能的重要途徑??梢酝ㄟ^參加實(shí)際的工程項(xiàng)目或者實(shí)驗(yàn)室實(shí)踐來積累經(jīng)驗(yàn)。在
    發(fā)表于 12-04 16:35

    什么是機(jī)器學(xué)習(xí)?通過機(jī)器學(xué)習(xí)方法能解決哪些問題?

    計算機(jī)系統(tǒng)自身的性能”。事實(shí)上,由于“經(jīng)驗(yàn)”在計算機(jī)系統(tǒng)主要以數(shù)據(jù)的形式存在,因此機(jī)器學(xué)習(xí)需要設(shè)法對數(shù)據(jù)進(jìn)行分析學(xué)習(xí),這就使得它逐漸成為智能數(shù)據(jù)分析技術(shù)的創(chuàng)新源之一,
    的頭像 發(fā)表于 11-16 01:07 ?963次閱讀
    什么是<b class='flag-5'>機(jī)器</b><b class='flag-5'>學(xué)習(xí)</b>?通過<b class='flag-5'>機(jī)器</b><b class='flag-5'>學(xué)習(xí)</b>方法能解決哪些問題?

    eda在機(jī)器學(xué)習(xí)的應(yīng)用

    機(jī)器學(xué)習(xí)項(xiàng)目中,數(shù)據(jù)預(yù)處理和理解是成功構(gòu)建模型的關(guān)鍵。探索性數(shù)據(jù)分析(EDA)是這一過程不可或缺的一部分。 1. 數(shù)據(jù)清洗 數(shù)據(jù)清洗 是機(jī)器學(xué)習(xí)
    的頭像 發(fā)表于 11-13 10:42 ?889次閱讀

    嵌入式學(xué)習(xí)建議

    原理的嵌入式操作系統(tǒng)進(jìn)行學(xué)習(xí)。不要一開始就學(xué)習(xí)幾種操作系統(tǒng),理解了基本原理,實(shí)踐中確有實(shí)際需要再學(xué)習(xí)也不遲。人總是要不斷學(xué)習(xí)的。 ⑨關(guān)于匯
    發(fā)表于 10-22 11:41

    RTOS開發(fā)最佳實(shí)踐

    基于RTOS編寫應(yīng)用程序時,有一些要注意事項(xiàng)。在本節(jié),您將學(xué)習(xí)RTOS開發(fā)最佳實(shí)踐,例如POSIX合規(guī)性、安全性和功能安全認(rèn)證。
    的頭像 發(fā)表于 08-20 11:24 ?846次閱讀

    【「時間序列與機(jī)器學(xué)習(xí)」閱讀體驗(yàn)】+ 鳥瞰這本書

    清晰,從時間序列分析的基礎(chǔ)理論出發(fā),逐步深入到機(jī)器學(xué)習(xí)算法在時間序列預(yù)測的應(yīng)用,內(nèi)容全面,循序漸進(jìn)。每一章都經(jīng)過精心設(shè)計,對理論知識進(jìn)行了詳細(xì)的闡述,對實(shí)際案例進(jìn)行了生動的展示,使讀者在理論與
    發(fā)表于 08-12 11:28

    【「時間序列與機(jī)器學(xué)習(xí)」閱讀體驗(yàn)】+ 簡單建議

    簡單評價這本書。 是這樣,在閱讀與實(shí)踐過程,我也發(fā)現(xiàn)了一些可以進(jìn)一步提升用戶體驗(yàn)的細(xì)節(jié)之處。 例如,書中大量的代碼示例對于學(xué)習(xí)者來說無疑是寶貴的資源,但在快速復(fù)制粘貼的過程,偶爾會
    發(fā)表于 08-12 11:21

    Autobots應(yīng)用探索:實(shí)踐中的思考與發(fā)現(xiàn)

    背景 背景1:作為一名測試,日常工作必不可少的幾個環(huán)節(jié)是查看需求文檔、編寫測試用例、處理線上問題、能力提升等,基于集團(tuán)的https://xxx.jd.com/工具能一次性幫我們把這些事情都做
    的頭像 發(fā)表于 07-16 15:00 ?548次閱讀
    Autobots應(yīng)用探索:<b class='flag-5'>實(shí)踐中</b>的思考與發(fā)現(xiàn)