一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

傳統(tǒng)機器學(xué)習(xí)方法和應(yīng)用指導(dǎo)

上海生物芯片 ? 來源:上海生物芯片 ? 2024-12-30 09:16 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

在上一篇文章中,我們介紹了機器學(xué)習(xí)的關(guān)鍵概念術(shù)語。在本文中,我們會介紹傳統(tǒng)機器學(xué)習(xí)的基礎(chǔ)知識和多種算法特征,供各位老師選擇。

01

傳統(tǒng)機器學(xué)習(xí)

傳統(tǒng)機器學(xué)習(xí),一般指不基于神經(jīng)網(wǎng)絡(luò)的算法,適合用于開發(fā)生物學(xué)數(shù)據(jù)的機器學(xué)習(xí)方法。盡管深度學(xué)習(xí)(一般指神經(jīng)網(wǎng)絡(luò)算法)是一個強大的工具,目前也非常流行,但它的應(yīng)用領(lǐng)域仍然有限。與深度學(xué)習(xí)相比,傳統(tǒng)方法在給定問題上的開發(fā)和測試速度更快。開發(fā)深度神經(jīng)網(wǎng)絡(luò)的架構(gòu)并進行訓(xùn)練是一項耗時且計算成本高昂的任務(wù),而傳統(tǒng)的支持向量機(SVM)和隨機森林等模型則相對簡單。此外,在深度神經(jīng)網(wǎng)絡(luò)中估計特征重要性(即每個特征對預(yù)測的貢獻程度)或模型預(yù)測的置信度仍然不是一件容易的事。即使使用深度學(xué)習(xí)模型,通常仍應(yīng)訓(xùn)練一個傳統(tǒng)方法,與基于神經(jīng)網(wǎng)絡(luò)的模型進行比較。

傳統(tǒng)方法通常期望數(shù)據(jù)集中的每個樣本具有相同數(shù)量的特征,但是生物學(xué)檢測數(shù)據(jù)很難滿足這個需求。舉例說明,當(dāng)使用蛋白質(zhì)、RNA的表達水平矩陣時,每個樣本表達的蛋白質(zhì)、RNA數(shù)量不同。為了使用傳統(tǒng)方法處理這些數(shù)據(jù),可以通過簡單的技術(shù)(如填充和窗口化)將數(shù)據(jù)調(diào)整為相同的大小。“填充”意味著將每個樣本添加額外的零值,直到它與數(shù)據(jù)集中最大的樣本大小相同。相比之下,窗口化將每個樣本縮短到給定的大小(例如,使用在所有樣品中均表達的蛋白質(zhì)、RNA)。

5ed086d2-c36d-11ef-9310-92fbcf53809c.png

表1. 傳統(tǒng)機器學(xué)習(xí)方法比較

02

回歸模型

對于回歸問題,嶺回歸(帶有正則化項的線性回歸)通常是開發(fā)模型的良好起點。因為它可以為給定任務(wù)提供快速且易于理解的基準。當(dāng)希望減少模型依賴的特征數(shù)時,比如篩選生物標志物研究時,其他線性回歸變體如LASSO回歸和彈性網(wǎng)絡(luò)回歸也是值得考慮的。數(shù)據(jù)中特征之間的關(guān)系通常是非線性的,因此在這種情況下使用如支持向量機(SVM)的模型通常是更合適的選擇。SVM是一種強大的回歸和分類模型,它使用核函數(shù)將不可分的問題轉(zhuǎn)換為更容易解決的可分問題。根據(jù)使用的核函數(shù),SVM可以用于線性回歸和非線性回歸。一個開發(fā)模型的好方法是訓(xùn)練一個線性SVM和一個帶有徑向基函數(shù)核的SVM(一種通用的非線性SVM),以量化非線性模型是否能帶來任何增益。非線性方法可以提供更強大的模型,但代價是難以解釋哪些特征在影響模型。

03

分類模型

許多常用的回歸模型也用于分類。對于分類任務(wù),訓(xùn)練一個線性SVM和一個帶有徑向基函數(shù)核的SVM也是一個好的默認起點。另一種可以嘗試的方法是k近鄰分類(KNN)。作為最簡單的分類方法之一,KNN提供了與其他更復(fù)雜的模型(如SVM)進行比較的有用基線性能指標。另一類強大的非線性方法是基于集成的模型,如隨機森林和XGBoost。這兩種方法都是強大的非線性模型,具有提供特征重要性估計和通常需要最少超參數(shù)調(diào)優(yōu)的優(yōu)點。由于特征重要性值的分配和決策樹結(jié)構(gòu),這些模型可分析哪些特征對預(yù)測貢獻最大,這對于生物學(xué)理解至關(guān)重要。

無論是分類還是回歸,許多可用的模型都有令人眼花繚亂的變體。試圖預(yù)測特定方法是否適合特定問題可能會有誤導(dǎo)性,因此采取經(jīng)驗性的試錯方法來找到最佳模型是明智的選擇。選擇最佳方法的一個好策略是訓(xùn)練和優(yōu)化上述多種方法,并選擇在驗證集上表現(xiàn)最好的模型,最后再在獨立的測試集上比較它們的性能。

04

聚類模型和降維

聚類算法在生物學(xué)中廣泛應(yīng)用。k-means是一種強大的通用聚類方法,像許多其他聚類算法一樣,需要將聚類的數(shù)量設(shè)置為超參數(shù)。DBSCAN是一種替代方法,不需要預(yù)先定義聚類的數(shù)量,但需要設(shè)置其他超參數(shù)。在聚類之前進行降維也可以提高具有大量特征的數(shù)據(jù)集的性能。

降維技術(shù)用于將具有大量屬性(或維度)的數(shù)據(jù)轉(zhuǎn)換為低維形式,同時盡可能保留數(shù)據(jù)點之間的不同關(guān)系。例如,相似的數(shù)據(jù)點(如兩個同源蛋白序列)在低維形式中也應(yīng)保持相似,而不相似的數(shù)據(jù)點(如不相關(guān)的蛋白序列)應(yīng)保持不相似。通常選擇兩維或三維,以便在坐標軸上可視化數(shù)據(jù),盡管在機器學(xué)習(xí)中使用更多維度也有其用途。這些技術(shù)包括數(shù)據(jù)的線性和非線性變換。生物學(xué)中常見的例子包括主成分分析(PCA)、均勻流形逼近和投影(UMAP)以及t分布隨機鄰域嵌入(t-SNE)。

5f95bb50-c36d-11ef-9310-92fbcf53809c.png

圖1. 各種傳統(tǒng)機器學(xué)習(xí)模型

本文詳細介紹了傳統(tǒng)機器學(xué)習(xí)方法和應(yīng)用指導(dǎo),下一篇文章將介紹深度神經(jīng)網(wǎng)絡(luò)算法模型,敬請期待。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴

原文標題:生物學(xué)家的機器學(xué)習(xí)指南(三)

文章出處:【微信號:SBCNECB,微信公眾號:上海生物芯片】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    FPGA在機器學(xué)習(xí)中的具體應(yīng)用

    隨著機器學(xué)習(xí)和人工智能技術(shù)的迅猛發(fā)展,傳統(tǒng)的中央處理單元(CPU)和圖形處理單元(GPU)已經(jīng)無法滿足高效處理大規(guī)模數(shù)據(jù)和復(fù)雜模型的需求。FPGA(現(xiàn)場可編程門陣列)作為一種靈活且高效的硬件加速平臺
    的頭像 發(fā)表于 07-16 15:34 ?608次閱讀

    掃地機器人EMC整改:傳統(tǒng)方法VS新技術(shù)的高效解決方案

    南柯電子|掃地機器人EMC整改:傳統(tǒng)方法VS新技術(shù)的高效解決方案
    的頭像 發(fā)表于 06-10 11:00 ?291次閱讀
    掃地<b class='flag-5'>機器</b>人EMC整改:<b class='flag-5'>傳統(tǒng)</b><b class='flag-5'>方法</b>VS新技術(shù)的高效解決方案

    第一章 W55MH32 高性能以太網(wǎng)單片機的學(xué)習(xí)方法概述

    本章介紹W55MH32的學(xué)習(xí)方法,建議先了解硬件資源,按基礎(chǔ)篇、入門篇循序漸進學(xué)習(xí)。參考兩份手冊,提供例程資料,還給出官網(wǎng)、github 等學(xué)習(xí)資料查找渠道。讓我們一起踏上W55MH32高性能以太網(wǎng)單片機的
    的頭像 發(fā)表于 05-26 09:07 ?126次閱讀
    第一章 W55MH32 高性能以太網(wǎng)單片機的<b class='flag-5'>學(xué)習(xí)方法</b>概述

    使用MATLAB進行無監(jiān)督學(xué)習(xí)

    無監(jiān)督學(xué)習(xí)是一種根據(jù)未標注數(shù)據(jù)進行推斷的機器學(xué)習(xí)方法。無監(jiān)督學(xué)習(xí)旨在識別數(shù)據(jù)中隱藏的模式和關(guān)系,無需任何監(jiān)督或關(guān)于結(jié)果的先驗知識。
    的頭像 發(fā)表于 05-16 14:48 ?699次閱讀
    使用MATLAB進行無監(jiān)督<b class='flag-5'>學(xué)習(xí)</b>

    一種無刷直流電機霍耳信號與定子繞組關(guān)系自學(xué)習(xí)方法

    的關(guān)系。提出了一種無刷直流電機霍耳信號與定子繞組關(guān)系自學(xué)習(xí)方法,該方法通過不同的繞組通電組合將電機轉(zhuǎn)子依次轉(zhuǎn)到6個不同的位置并記錄對應(yīng)的霍耳信號,然后得出霍耳信號與定子繞組的對應(yīng)關(guān)系。所提出的方法快速
    發(fā)表于 03-25 15:15

    DeepSeek與Kimi揭示o1秘密,思維鏈學(xué)習(xí)方法顯成效

    據(jù)消息,OpenAI近日發(fā)布了一項重要研究報告。報告指出,DeepSeek和Kimi兩家機構(gòu)通過獨立研究,成功利用思維鏈學(xué)習(xí)方法,在數(shù)學(xué)解題與編程挑戰(zhàn)中顯著提升了模型的綜合表現(xiàn)。 Kimi的研究員
    的頭像 發(fā)表于 02-18 15:13 ?480次閱讀

    什么是機器學(xué)習(xí)?通過機器學(xué)習(xí)方法能解決哪些問題?

    來源:Master編程樹“機器學(xué)習(xí)”最初的研究動機是讓計算機系統(tǒng)具有人的學(xué)習(xí)能力以便實現(xiàn)人工智能。因為沒有學(xué)習(xí)能力的系統(tǒng)很難被認為是具有智能的。目前被廣泛采用的
    的頭像 發(fā)表于 11-16 01:07 ?970次閱讀
    什么是<b class='flag-5'>機器</b><b class='flag-5'>學(xué)習(xí)</b>?通過<b class='flag-5'>機器</b><b class='flag-5'>學(xué)習(xí)方法</b>能解決哪些問題?

    NPU與機器學(xué)習(xí)算法的關(guān)系

    緊密。 NPU的起源與特點 NPU的概念最早由谷歌在其TPU(Tensor Processing Unit)項目中提出,旨在為TensorFlow框架提供專用的硬件加速。NPU的設(shè)計目標是提高機器學(xué)習(xí)算法的運行效率,特別是在處理大規(guī)模數(shù)據(jù)集和復(fù)雜神經(jīng)網(wǎng)絡(luò)模型時。與
    的頭像 發(fā)表于 11-15 09:19 ?1238次閱讀

    LLM和傳統(tǒng)機器學(xué)習(xí)的區(qū)別

    在人工智能領(lǐng)域,LLM(Large Language Models,大型語言模型)和傳統(tǒng)機器學(xué)習(xí)是兩種不同的技術(shù)路徑,它們在處理數(shù)據(jù)、模型結(jié)構(gòu)、應(yīng)用場景等方面有著顯著的差異。 1. 模型結(jié)構(gòu)
    的頭像 發(fā)表于 11-08 09:25 ?1912次閱讀

    如何使用 PyTorch 進行強化學(xué)習(xí)

    強化學(xué)習(xí)(Reinforcement Learning, RL)是一種機器學(xué)習(xí)方法,它通過與環(huán)境的交互來學(xué)習(xí)如何做出決策,以最大化累積獎勵。PyTorch 是一個流行的開源
    的頭像 發(fā)表于 11-05 17:34 ?1055次閱讀

    麻省理工學(xué)院推出新型機器人訓(xùn)練模型

    近日,據(jù)TechCrunch報道,麻省理工學(xué)院的研究團隊展示了一種創(chuàng)新的機器人訓(xùn)練模型,該模型突破了傳統(tǒng)模仿學(xué)習(xí)方法的局限,不再依賴標準數(shù)據(jù)集,而是借鑒了大型語言模型(LLM)如GPT-4等所使用的大規(guī)模信息處理方式,為
    的頭像 發(fā)表于 11-04 14:56 ?953次閱讀

    AI大模型與傳統(tǒng)機器學(xué)習(xí)的區(qū)別

    AI大模型與傳統(tǒng)機器學(xué)習(xí)在多個方面存在顯著的區(qū)別。以下是對這些區(qū)別的介紹: 一、模型規(guī)模與復(fù)雜度 AI大模型 :通常包含數(shù)十億甚至數(shù)萬億的參數(shù),模型大小可以達到數(shù)百GB甚至更大。這些模型結(jié)構(gòu)復(fù)雜,由
    的頭像 發(fā)表于 10-23 15:01 ?2607次閱讀

    嵌入式學(xué)習(xí)建議

    學(xué)習(xí)目的,并注意學(xué)習(xí)方法。要明確學(xué)習(xí)目的是打基礎(chǔ),還是為了適應(yīng)工作需要而進行的短訓(xùn)。學(xué)習(xí)方法方面,要根據(jù)學(xué)習(xí)目的選擇合適的
    發(fā)表于 10-22 11:41

    【「時間序列與機器學(xué)習(xí)」閱讀體驗】+ 鳥瞰這本書

    的交織中不斷成長。 讀者對這本書的評價普遍很高。他們稱贊作者用通俗易懂的語言將復(fù)雜的概念解釋得透徹清晰,即使是初學(xué)者也能輕松入門。同時,書中豐富的案例和詳細的步驟指導(dǎo)也讓讀者快速積累經(jīng)驗,提高實戰(zhàn)技能。甚至有讀者表示,這本書已經(jīng)成為時間序列分析、機器
    發(fā)表于 08-12 11:28

    【《時間序列與機器學(xué)習(xí)》閱讀體驗】+ 了解時間序列

    學(xué)習(xí)方法對該序列數(shù)據(jù)進行分析,可以得到結(jié)論或預(yù)測估計,因此時間序列分析的用途是非常多的,比如: 可以反映社會經(jīng)濟現(xiàn)象的發(fā)展變化過程,描述現(xiàn)象的發(fā)展?fàn)顟B(tài)和結(jié)果。 可以研究社會經(jīng)濟現(xiàn)象的發(fā)展趨勢和發(fā)展速度
    發(fā)表于 08-11 17:55