一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

在機器學(xué)習(xí)領(lǐng)域,數(shù)據(jù)和模型哪個更重要

智能感知與物聯(lián)網(wǎng)技術(shù)研究所 ? 來源:neptune.ai ? 作者:Harshil Patel ? 2022-03-24 14:16 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

機器學(xué)習(xí)領(lǐng)域,數(shù)據(jù)重要還是模型重要?這是一個很難回答的問題。

模型和數(shù)據(jù)是 AI 系統(tǒng)的基礎(chǔ),這兩個組件在模型的開發(fā)中扮演著重要的角色。

人工智能領(lǐng)域最權(quán)威的學(xué)者之一吳恩達(dá)曾提出「80% 的數(shù)據(jù) + 20% 的模型 = 更好的機器學(xué)習(xí)」,他認(rèn)為一個團隊研究 80% 的工作應(yīng)該放在數(shù)據(jù)準(zhǔn)備上,數(shù)據(jù)質(zhì)量是重要的,但很少有人在乎。如果更多地強調(diào)以數(shù)據(jù)為中心而不是以模型為中心,機器學(xué)習(xí)會發(fā)展的更快。

我們不禁會問,機器學(xué)習(xí)的進步是模型帶來的還是數(shù)據(jù)帶來的,目前還沒有一個明確的答案。

在本文中,Android 開發(fā)者和機器學(xué)習(xí)愛好者 Harshil Patel 介紹了「機器學(xué)習(xí):以數(shù)據(jù)為中心 VS 以模型為中心」,通過對比以確定兩者中哪個更重要,此外,Patel 還介紹了如何使用以數(shù)據(jù)為中心的基礎(chǔ)設(shè)施。

以數(shù)據(jù)為中心的方法 VS 以模型為中心的方法

以模型為中心的方法意味著需要通過實驗來提高機器學(xué)習(xí)模型性能,這涉及模型架構(gòu)的選擇、訓(xùn)練過程。而在以模型為中心的方法中,你需要保持?jǐn)?shù)據(jù)相同,通過改進代碼和模型架構(gòu)來提高性能。此外,對代碼的改進是以模型為中心的根本目標(biāo)。

目前,大多數(shù) AI 應(yīng)用都是以模型為中心的,其中一個可能的原因是學(xué)術(shù)研究非常重視 AI 領(lǐng)域。根據(jù)吳恩達(dá)的說法,AI 領(lǐng)域 90% 以上的研究論文都是以模型為中心的,因為我們很難創(chuàng)建大型數(shù)據(jù)集,使其成為公認(rèn)的標(biāo)準(zhǔn)。因此,AI 社區(qū)認(rèn)為以模型為中心的機器學(xué)習(xí)更有前景。研究者在專注于模型的同時,往往會忽略數(shù)據(jù)的重要性。

對于研究者而言,數(shù)據(jù)是每個決策過程的核心,以數(shù)據(jù)為中心的公司通過使用其運營產(chǎn)生的信息,可以獲得更準(zhǔn)確、更有條理、更透明的結(jié)果,從而可以幫助公司組織更順利地運行。以數(shù)據(jù)為中心的方法涉及系統(tǒng)地改進、改進數(shù)據(jù)集,以提高 ML 應(yīng)用程序的準(zhǔn)確性,對數(shù)據(jù)進行處理是以數(shù)據(jù)為中心的中心目標(biāo)。

f0375be2-98a9-11ec-952b-dac502259ad0.png

數(shù)據(jù)驅(qū)動 VS 以數(shù)據(jù)為中心

許多人經(jīng)?;煜敢詳?shù)據(jù)為中心」和「數(shù)據(jù)驅(qū)動」這兩個概念。數(shù)據(jù)驅(qū)動是一種從數(shù)據(jù)中收集、分析和提取見解的方法,它有時被稱為「分析」。另一方面,以數(shù)據(jù)為中心的方法側(cè)重于使用數(shù)據(jù)來定義應(yīng)該首先創(chuàng)建的內(nèi)容;而以數(shù)據(jù)為中心的架構(gòu)指的是一個系統(tǒng),其中數(shù)據(jù)是主要和永久的資產(chǎn)。數(shù)據(jù)驅(qū)動架構(gòu)意味著通過利用大量數(shù)據(jù)來創(chuàng)建技術(shù)、技能和環(huán)境。

對于數(shù)據(jù)科學(xué)家和機器學(xué)習(xí)工程師來說,以模型為中心的方法似乎更受歡迎。這是因為從業(yè)者可以利用自身知識儲備來解決特定問題。另一方面,沒有人愿意花大量時間去標(biāo)注數(shù)據(jù)。

然而,在當(dāng)今的機器學(xué)習(xí)中,數(shù)據(jù)至關(guān)重要,但在 AI 發(fā)展中卻經(jīng)常被忽視和處理不當(dāng)。由于數(shù)據(jù)錯誤,研究者可能花費大量時間進行查錯。模型精度較低的根本原因可能不是來自模型本身,而是來自錯誤的數(shù)據(jù)集。

f04d9542-98a9-11ec-952b-dac502259ad0.png

除了關(guān)注數(shù)據(jù)外,模型和代碼也很重要。但研究者往往傾向于在關(guān)注模型的同時忽略數(shù)據(jù)的重要性。最好的方法是同時關(guān)注數(shù)據(jù)和模型的混合方法。根據(jù)應(yīng)用程序的不同,研究者應(yīng)該兼顧數(shù)據(jù)和模型。

以數(shù)據(jù)為中心的基礎(chǔ)架構(gòu)

以模型為中心的機器學(xué)習(xí)系統(tǒng)主要關(guān)注模型架構(gòu)優(yōu)化及其參數(shù)優(yōu)化。

f06851ca-98a9-11ec-952b-dac502259ad0.png

以模型為中心的 ML 應(yīng)用程序

上圖中描述的是以模型為中心的工作流適用于少數(shù)行業(yè),如媒體、廣告、醫(yī)療保健或制造業(yè)。但也可能面臨如下挑戰(zhàn):

需要高級定制系統(tǒng):不同于媒體和廣告行業(yè),許多企業(yè)無法使用單一的機器學(xué)習(xí)系統(tǒng)來檢測其產(chǎn)品的生產(chǎn)故障。雖然媒體公司可以負(fù)擔(dān)得起有一個完整的 ML 部門來處理優(yōu)化問題,但需要多個 ML 解決方案的制造企業(yè)不能按照這樣的模板進行實施;

大型數(shù)據(jù)集的重要性:在大多數(shù)情況下,公司沒有大量數(shù)據(jù)可供使用。相反,他們經(jīng)常被迫處理微小的數(shù)據(jù)集,如果他們的方法是以模型為中心的,那么這些數(shù)據(jù)集很容易產(chǎn)生令人失望的結(jié)果。

吳恩達(dá)曾在他的 AI 演講中解釋了他如何相信以數(shù)據(jù)為中心的 ML 更有價值,并倡導(dǎo)社區(qū)朝著以數(shù)據(jù)為中心的方向發(fā)展。他曾經(jīng)舉了一個「鋼鐵缺陷檢測」的例子,其中以模型為中心的方法未能提高模型的準(zhǔn)確率,而以數(shù)據(jù)為中心的方法將準(zhǔn)確率提高了 16%。

f07c738a-98a9-11ec-952b-dac502259ad0.png

以數(shù)據(jù)為中心的 ML 應(yīng)用程序

在實施以數(shù)據(jù)為中心的架構(gòu)時,可以將數(shù)據(jù)視為比應(yīng)用程序和基礎(chǔ)架構(gòu)更耐用的基本資產(chǎn)。以數(shù)據(jù)為中心的 ML 使數(shù)據(jù)共享和移動變得簡單。那么,在以數(shù)據(jù)為中心的機器學(xué)習(xí)到底涉及什么?在實現(xiàn)以數(shù)據(jù)為中心的方法時,我們應(yīng)該考慮以下因素:

數(shù)據(jù)標(biāo)簽質(zhì)量:當(dāng)大量的圖像被錯誤標(biāo)記時,會出現(xiàn)意想不到的錯誤,因此需要提高數(shù)據(jù)標(biāo)注質(zhì)量;

數(shù)據(jù)增強:讓有限的數(shù)據(jù)產(chǎn)生更多的數(shù)據(jù),增加訓(xùn)練樣本的數(shù)量以及多樣性(噪聲數(shù)據(jù)),提升模型穩(wěn)健性;

特征工程:通過改變輸入數(shù)據(jù)、先驗知識或算法向模型添加特征,常被用于機器學(xué)習(xí),以幫助提高預(yù)測模型的準(zhǔn)確性;

數(shù)據(jù)版本控制:開發(fā)人員通過比較兩個版本來跟蹤錯誤并查看沒有意義的內(nèi)容,數(shù)據(jù)版本控制是維護數(shù)據(jù)中最不可或缺的步驟之一,它可以幫助研究者跟蹤數(shù)據(jù)集的更改(添加和刪除),版本控制使代碼協(xié)作和數(shù)據(jù)集管理變得更加容易;

領(lǐng)域知識:在以數(shù)據(jù)為中心的方法中,領(lǐng)域知識非常有價值。領(lǐng)域?qū)<彝ǔ?梢詸z測到 ML 工程師、數(shù)據(jù)科學(xué)家和標(biāo)注人員無法檢測到的細(xì)微差異,ML 系統(tǒng)中仍然缺少涉及領(lǐng)域?qū)<业膬?nèi)容。如果有額外的領(lǐng)域知識可用,ML 系統(tǒng)可能會表現(xiàn)得更好。

應(yīng)該優(yōu)先考慮哪一個:數(shù)據(jù)數(shù)量還是數(shù)據(jù)質(zhì)量?

需要強調(diào)的是,數(shù)據(jù)量多并不等同于數(shù)據(jù)質(zhì)量好。當(dāng)然,訓(xùn)練神經(jīng)網(wǎng)絡(luò)不能只用幾張圖就能完成,數(shù)據(jù)數(shù)量是一個方面,但現(xiàn)在的重點是質(zhì)量而不是數(shù)量。

f09187de-98a9-11ec-952b-dac502259ad0.png

如上圖所示,大多數(shù) Kaggle 數(shù)據(jù)集并沒有那么大。在以數(shù)據(jù)為中心的方法中,數(shù)據(jù)集的大小并不那么重要,并且可以使用質(zhì)量較小的數(shù)據(jù)集完成更多的工作。不過需要注意的是,數(shù)據(jù)質(zhì)量高且標(biāo)注正確。

上圖中是另一種標(biāo)注數(shù)據(jù)的方式,單獨或組合標(biāo)注。例如,如果數(shù)據(jù)科學(xué)家 1 單獨標(biāo)注菠蘿,而數(shù)據(jù)科學(xué)家 2 將其組合標(biāo)注,則兩者標(biāo)注的數(shù)據(jù)不兼容,導(dǎo)致學(xué)習(xí)算法變得混亂。因此,需要將數(shù)據(jù)標(biāo)簽保持一致;如果需要單獨標(biāo)注,請確保所有標(biāo)注都以相同的方式進行。

f0c2d94c-98a9-11ec-952b-dac502259ad0.png

上圖為吳恩達(dá)解釋了小數(shù)據(jù)集一致性的重要性

到底需要多少數(shù)據(jù)?

數(shù)據(jù)質(zhì)量不可忽視,但數(shù)據(jù)量也是至關(guān)重要的,研究者必須有足夠的數(shù)據(jù)支撐才能解決問題。深度網(wǎng)絡(luò)具有低偏差、高方差特性,我們可以預(yù)見更多的數(shù)據(jù)可以解決方差問題。但是多少數(shù)據(jù)才夠呢?目前這個問題還很難回答,不過我們可以認(rèn)為擁有大量的數(shù)據(jù)是一種優(yōu)勢,但也不是必須的。

如果你采用以數(shù)據(jù)為中心的方法,請記住以下幾點:

確保在整個 ML 項目周期中數(shù)據(jù)保持一致;

數(shù)據(jù)標(biāo)注保持一致;

要及時反饋結(jié)果;

進行錯誤分析;

消除噪聲樣本。

那么,我們哪里可以找到高質(zhì)量的數(shù)據(jù)集?這里推薦幾個網(wǎng)站,首先是 Kaggle:在 Kaggle 中,你會找到進行數(shù)據(jù)科學(xué)工作所需的所有代碼和數(shù)據(jù),Kaggle 擁有超過 50,000 個公共數(shù)據(jù)集和 400,000 個公共 notebook,可以快速完成任務(wù)。

f0deb1ee-98a9-11ec-952b-dac502259ad0.png

其次是 Datahub.io:Datahub 是一個主要專注于商業(yè)和金融的數(shù)據(jù)集平臺。許多數(shù)據(jù)集,例如國家、人口和地理邊界列表,目前在 DataHub 上可用。

f0f95f4e-98a9-11ec-952b-dac502259ad0.png

最后是 Graviti Open Datasets:Graviti 是一個新的數(shù)據(jù)平臺,主要為計算機視覺提供高質(zhì)量的數(shù)據(jù)集。個人開發(fā)人員或組織可以輕松訪問、共享和更好地管理開放數(shù)據(jù)。

原文標(biāo)題:90%論文都是以模型為中心,AI領(lǐng)域,數(shù)據(jù)和模型到底哪個重要?

文章出處:【微信公眾號:智能感知與物聯(lián)網(wǎng)技術(shù)研究所】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

審核編輯:湯梓紅

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 數(shù)據(jù)
    +關(guān)注

    關(guān)注

    8

    文章

    7255

    瀏覽量

    91813
  • AI
    AI
    +關(guān)注

    關(guān)注

    88

    文章

    35093

    瀏覽量

    279459
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3517

    瀏覽量

    50398

原文標(biāo)題:90%論文都是以模型為中心,AI領(lǐng)域,數(shù)據(jù)和模型到底哪個重要?

文章出處:【微信號:tyutcsplab,微信公眾號:智能感知與物聯(lián)網(wǎng)技術(shù)研究所】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    網(wǎng)線機器領(lǐng)域如何發(fā)揮重要作用

    機器人制造領(lǐng)域正經(jīng)歷前所未有的變革,網(wǎng)絡(luò)產(chǎn)品作為連接機器人內(nèi)部系統(tǒng)與外部環(huán)境的關(guān)鍵紐帶,機器視覺、數(shù)據(jù)
    的頭像 發(fā)表于 04-27 13:33 ?329次閱讀

    國產(chǎn)地物光譜儀“高光譜-機器學(xué)習(xí)模型構(gòu)建中的表現(xiàn)

    遙感應(yīng)用和環(huán)境監(jiān)測日益精細(xì)化的今天,“高光譜 + 機器學(xué)習(xí)”的組合已成為地物識別、礦產(chǎn)探測、農(nóng)業(yè)監(jiān)測等領(lǐng)域重要技術(shù)手段。而作為獲取高光譜
    的頭像 發(fā)表于 04-18 16:15 ?256次閱讀
    國產(chǎn)地物光譜儀<b class='flag-5'>在</b>“高光譜-<b class='flag-5'>機器</b><b class='flag-5'>學(xué)習(xí)</b>”<b class='flag-5'>模型</b>構(gòu)建中的表現(xiàn)

    機器學(xué)習(xí)模型市場前景如何

    當(dāng)今,隨著算法的不斷優(yōu)化、數(shù)據(jù)量的爆炸式增長以及計算能力的飛速提升,機器學(xué)習(xí)模型的市場前景愈發(fā)廣闊。下面,AI部落小編將探討機器
    的頭像 發(fā)表于 02-13 09:39 ?358次閱讀

    【「基于大模型的RAG應(yīng)用開發(fā)與優(yōu)化」閱讀體驗】+大模型微調(diào)技術(shù)解讀

    今天學(xué)習(xí)<基于大模型的RAG應(yīng)用開發(fā)與優(yōu)化>這本書。大模型微調(diào)是深度學(xué)習(xí)領(lǐng)域中的一項關(guān)鍵技術(shù),它指的是
    發(fā)表于 01-14 16:51

    【「具身智能機器人系統(tǒng)」閱讀體驗】2.具身智能機器人大模型

    近年來,人工智能領(lǐng)域的大模型技術(shù)多個方向上取得了突破性的進展,特別是機器人控制領(lǐng)域展現(xiàn)出了巨
    發(fā)表于 12-29 23:04

    《具身智能機器人系統(tǒng)》第7-9章閱讀心得之具身智能機器人與大模型

    醫(yī)療領(lǐng)域,手術(shù)輔助機器人需要毫米級的精確控制,書中有介紹基于視覺伺服的實時控制算法,以及如何利用大模型優(yōu)化手術(shù)路徑規(guī)劃。工業(yè)場景中,協(xié)作機器人面臨的主要挑戰(zhàn)是快速適應(yīng)新工藝流程。具身智
    發(fā)表于 12-24 15:03

    【「具身智能機器人系統(tǒng)」閱讀體驗】+數(shù)據(jù)具身人工智能中的價值

    機器領(lǐng)域貨幣化的重要工具,互聯(lián)網(wǎng)領(lǐng)域,公司主要將用戶數(shù)據(jù)用于定向廣告和個性化內(nèi)容。這種有針
    發(fā)表于 12-24 00:33

    【「大模型啟示錄」閱讀體驗】如何在客服領(lǐng)域應(yīng)用大模型

    客服領(lǐng)域是大模型落地場景中最多的,也是最容易實現(xiàn)的。本身客服領(lǐng)域的特點就是問答形式,大模型接入難度低。今天跟隨《大
    發(fā)表于 12-17 16:53

    cmp機器學(xué)習(xí)中的作用 如何使用cmp進行數(shù)據(jù)對比

    機器學(xué)習(xí)領(lǐng)域,"cmp"這個術(shù)語可能并不是一個常見的術(shù)語,它可能是指"比較"(comparison)的縮寫。 比較
    的頭像 發(fā)表于 12-17 09:35 ?870次閱讀

    NPU與機器學(xué)習(xí)算法的關(guān)系

    人工智能領(lǐng)域,機器學(xué)習(xí)算法是實現(xiàn)智能系統(tǒng)的核心。隨著數(shù)據(jù)量的激增和算法復(fù)雜度的提升,對計算資源的需求也
    的頭像 發(fā)表于 11-15 09:19 ?1208次閱讀

    魯棒性機器學(xué)習(xí)中的重要

    機器學(xué)習(xí)領(lǐng)域,模型的魯棒性是指模型面對輸入
    的頭像 發(fā)表于 11-11 10:19 ?1257次閱讀

    AI大模型與傳統(tǒng)機器學(xué)習(xí)的區(qū)別

    AI大模型與傳統(tǒng)機器學(xué)習(xí)多個方面存在顯著的區(qū)別。以下是對這些區(qū)別的介紹: 一、模型規(guī)模與復(fù)雜度 AI大
    的頭像 發(fā)表于 10-23 15:01 ?2561次閱讀

    電源穩(wěn)壓器和電源濾波器哪個重要

    電源穩(wěn)壓器和電源濾波器電子設(shè)備中都具有重要的作用,它們各自承擔(dān)著不同的功能,因此難以直接比較哪個更重要。以下是它們各自的重要性和功能分析:
    的頭像 發(fā)表于 10-03 15:25 ?1108次閱讀

    【「時間序列與機器學(xué)習(xí)」閱讀體驗】+ 簡單建議

    這本書以其系統(tǒng)性的框架和深入淺出的講解,為讀者繪制了一幅時間序列分析與機器學(xué)習(xí)融合應(yīng)用的宏偉藍(lán)圖。作者不僅扎實地構(gòu)建了時間序列分析的基礎(chǔ)知識,更巧妙地展示了機器學(xué)習(xí)如何在這一
    發(fā)表于 08-12 11:21

    【《大語言模型應(yīng)用指南》閱讀體驗】+ 基礎(chǔ)知識學(xué)習(xí)

    今天來學(xué)習(xí)大語言模型自然語言理解方面的原理以及問答回復(fù)實現(xiàn)。 主要是基于深度學(xué)習(xí)和自然語言處理技術(shù)。 大語言模型涉及以下幾個過程:
    發(fā)表于 08-02 11:03