一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

吳恩達:一個機器學習團隊80%的工作應該放在數(shù)據(jù)準備上

新機器視覺 ? 來源:新智元 ? 作者:新智元 ? 2021-04-18 10:21 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

【導讀】模型好就能碾壓一切嗎?吳恩達潑冷水,機器學習發(fā)展80%依靠數(shù)據(jù)集的進步!這也激起了業(yè)內(nèi)對MLOps工具鏈的關(guān)注。

機器學習的進步是模型帶來的還是數(shù)據(jù)帶來的,這可能是一個世紀辯題。 吳恩達對此的想法是,一個機器學習團隊80%的工作應該放在數(shù)據(jù)準備上,確保數(shù)據(jù)質(zhì)量是最重要的工作,每個人都知道應該如此做,但沒人在乎。如果更多地強調(diào)以數(shù)據(jù)為中心而不是以模型為中心,那么機器學習的發(fā)展會更快。

當去arxiv上查找機器學習相關(guān)的研究時,所有模型都在圍繞基準測試展示自己模型的能力,例如Google有BERT,OpenAI有GPT-3,這些模型僅解決了業(yè)務問題的20%,在業(yè)務場景中取得更好的效果需要更好的數(shù)據(jù)。 傳統(tǒng)軟件由代碼提供動力,而AI系統(tǒng)是同時使用代碼(模型+算法)和數(shù)據(jù)構(gòu)建的。以前的工作方式是,當模型效果不理想,我們就會去修改模型,而沒有想過可能是數(shù)據(jù)的問題。 機器學習的進步一直是由提高基準數(shù)據(jù)集性能的努力所推動的。研究人員的常見做法是在嘗試改進代碼的同時保持數(shù)據(jù)固定,以模型改進為中心對模型性能的提升實際上效率是很低的。但是,當數(shù)據(jù)集大小適中(<10,000個示例)時,則需要在代碼上進行嘗試改進。 ?

8da3fe6e-9fbb-11eb-8b86-12bb97331649.png

根據(jù)劍橋研究人員所做的一項研究,最重要但仍經(jīng)常被忽略的問題是數(shù)據(jù)的格式不統(tǒng)一。當數(shù)據(jù)從不同的源流式傳輸時,這些源可能具有不同的架構(gòu),不同的約定及其存儲和訪問數(shù)據(jù)的方式。對于機器學習工程師來說,這是一個繁瑣的過程,需要將信息組合成適合機器學習的單個數(shù)據(jù)集。 小數(shù)據(jù)的劣勢在于少量的噪聲數(shù)據(jù)就會影響模型效果,而大數(shù)據(jù)量則會使標注工作變得很困難,高質(zhì)量的標簽也是機器學習模型的瓶頸所在。 這番話也引起機器學習界對MLOps的重新思索。

MLOps是什么? MLOps,即Machine Learning和Operations的組合,是ModelOps的子集,是數(shù)據(jù)科學家與操作專業(yè)人員之間進行協(xié)作和交流以幫助管理機器學習任務生命周期的一種實踐。

8daf7302-9fbb-11eb-8b86-12bb97331649.png

與DevOps或DataOps方法類似,MLOps希望提高自動化程度并提高生產(chǎn)ML的質(zhì)量,同時還要關(guān)注業(yè)務和法規(guī)要求。 互聯(lián)網(wǎng)公司通常用有大量的數(shù)據(jù),而如果在缺少數(shù)據(jù)的應用場景中進行部署AI時,例如農(nóng)業(yè)場景 ,你不能指望自己有一百萬臺拖拉機為自己收集數(shù)據(jù)。 基于MLOps,吳恩達也提出幾點建議:

MLOps的最重要任務是提供高質(zhì)量數(shù)據(jù)。

標簽的一致性也很重要。檢驗標簽是否有自己所管轄的明確界限,即使標簽的定義是好的,缺乏一致性也會導致模型效果不佳。

系統(tǒng)地改善baseline模型上的數(shù)據(jù)質(zhì)量要比追求具有低質(zhì)量數(shù)據(jù)的最新模型要好。

如果訓練期間出現(xiàn)錯誤,那么應當采取以數(shù)據(jù)為中心的方法。

如果以數(shù)據(jù)為中心,對于較小的數(shù)據(jù)集(<10,000個樣本),則數(shù)據(jù)容量上存在很大的改進空間。

當使用較小的數(shù)據(jù)集時,提高數(shù)據(jù)質(zhì)量的工具和服務至關(guān)重要。

一致性的數(shù)據(jù)定義,涵蓋所有邊界情況,從生產(chǎn)數(shù)據(jù)中得到及時的反饋,數(shù)據(jù)集大小合適。 吳恩達同時建議不要指望工程師去嘗試改善數(shù)據(jù)集。相反,他希望ML社區(qū)開發(fā)更多MLOps工具,以幫助產(chǎn)生高質(zhì)量的數(shù)據(jù)集和AI系統(tǒng),并使他們具有可重復性。除此之外,MLOps是一個新生領(lǐng)域,MLOps團隊的最重要目標應該是確保整個項目各個階段的高質(zhì)量和一致的數(shù)據(jù)流。

一些MLOps的工具已經(jīng)取得了不錯的成績。 Alteryx處于自助數(shù)據(jù)分析運動的最前沿。公司的平臺“ Designer”旨在快速發(fā)現(xiàn)、準備和分析客戶的詳細信息。該工具用于易于使用的界面,用戶可以連接和清除數(shù)據(jù)倉庫。Alteryx的工具還包括空間文件的數(shù)據(jù)混合,可以將其附加到其他第三方數(shù)據(jù)。

Paxata提供自適應的信息平臺,它具有靈活的部署和自助操作。它使分析人員和數(shù)據(jù)科學家可以收集多個原始數(shù)據(jù)集,并將它們轉(zhuǎn)換成有價值的信息,這些信息可以立即轉(zhuǎn)換為執(zhí)行模型訓練所需要的格式。該平臺是基于所見即所得設計,具有電子表格風格的數(shù)據(jù)展示,因此用戶無需學習新工具。此外,該平臺能夠提供算法協(xié)助以推斷所收集數(shù)據(jù)的含義。 TIBCO軟件最近在這個快速發(fā)展的領(lǐng)域中嶄露頭角。它允許用戶連接、清理、合并和整理來自不同來源的數(shù)據(jù),其中還包括大數(shù)據(jù)存儲。該軟件使用戶可以通過簡單的在線數(shù)據(jù)整理進行數(shù)據(jù)分析,并且提供完整的API支持,可以根據(jù)自己的個性化需求進行更改。

網(wǎng)友表示,吳恩達老師說的太真實了!

9161d666-9fbb-11eb-8b86-12bb97331649.png

也有網(wǎng)友表示,機器學習更像是數(shù)據(jù)分析,模型的搭建就是構(gòu)建pipelines。

916b0434-9fbb-11eb-8b86-12bb97331649.png

責任編輯:lq

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 機器學習
    +關(guān)注

    關(guān)注

    66

    文章

    8501

    瀏覽量

    134533
  • 數(shù)據(jù)集
    +關(guān)注

    關(guān)注

    4

    文章

    1223

    瀏覽量

    25416
  • 吳恩達
    +關(guān)注

    關(guān)注

    0

    文章

    26

    瀏覽量

    7267

原文標題:吳恩達的二八定律:80%的數(shù)據(jù)+20%的模型=更好的機器學習

文章出處:【微信號:vision263com,微信公眾號:新機器視覺】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    SOLIDWORKS 2025教育版有效的數(shù)據(jù)管理與團隊協(xié)作

    在當今數(shù)字化時代,工程設計領(lǐng)域?qū)?b class='flag-5'>數(shù)據(jù)管理和團隊協(xié)作的要求日益提高。SOLIDWORKS 2025教育版作為款CAD軟件,以其強大的數(shù)據(jù)管理和團隊
    的頭像 發(fā)表于 04-07 17:28 ?333次閱讀
    SOLIDWORKS 2025教育版有效的<b class='flag-5'>數(shù)據(jù)</b>管理與<b class='flag-5'>團隊</b>協(xié)作

    深度解讀英偉Newton機器人平臺:技術(shù)革新與跨界生態(tài)構(gòu)建

    的基礎,它使機器人能夠學習如何以更高的精度處理復雜的任務,與MuJoCo Playground或 NVIDIA Isaac Lab 等學習框架兼容,這是
    的頭像 發(fā)表于 03-20 15:15 ?1701次閱讀
    深度解讀英偉<b class='flag-5'>達</b>Newton<b class='flag-5'>機器</b>人平臺:技術(shù)革新與跨界生態(tài)構(gòu)建

    ADS1298中drdy應該是轉(zhuǎn)換數(shù)據(jù)準備就緒的標志輸出吧?

    );那么當drdy為低電平時,這個語句會跳過去,執(zhí)行下面的語句。 以前用這條語句非常順利。最近發(fā)現(xiàn)程序運行時經(jīng)常會卡在這里(drdy不會變低),有時候重新電再運行會解決這個問題,但有時候卻不行 。 請問專家這是怎么回事,這應該是ADS1298的轉(zhuǎn)換
    發(fā)表于 02-13 07:03

    英偉組建ASIC團隊,挖掘臺灣設計服務人才

    英偉自2024年中旬起,便開始了從臺灣地區(qū)半導體公司挖掘設計服務人才的行動。這系列舉措旨在組建自家的ASIC(專用集成電路)團隊,以在現(xiàn)有的Tensor Core GPU之外,開辟
    的頭像 發(fā)表于 01-03 14:39 ?666次閱讀

    傳統(tǒng)機器學習方法和應用指導

    用于開發(fā)生物學數(shù)據(jù)機器學習方法。盡管深度學習般指神經(jīng)網(wǎng)絡算法)是
    的頭像 發(fā)表于 12-30 09:16 ?1172次閱讀
    傳統(tǒng)<b class='flag-5'>機器</b><b class='flag-5'>學習</b>方法和應用指導

    【「具身智能機器人系統(tǒng)」閱讀體驗】+數(shù)據(jù)在具身人工智能中的價值

    嵌入式人工智能(EAI)將人工智能集成到機器人等物理實體中,使它們能夠感知、學習環(huán)境并與之動態(tài)交互。這種能力使此類機器人能夠在人類社會中有效地提供商品及服務。 數(shù)據(jù)
    發(fā)表于 12-24 00:33

    智浦eIQ Time Series Studio 工具使用全攻略

    簡化時間序列模型的創(chuàng)建、訓練和部署過程,為開發(fā)人員提供了全面的開發(fā)環(huán)境。這個用戶友好的IDE,可以幫助用戶在沒有AI/ML知識的情況下快速構(gòu)建模型。 ? ? 目標用戶: 基于智浦SoC的時間序列
    的頭像 發(fā)表于 12-12 09:37 ?1720次閱讀
    <b class='flag-5'>恩</b>智浦eIQ Time Series Studio 工具使用全攻略

    什么是機器學習?通過機器學習方法能解決哪些問題?

    計算機系統(tǒng)自身的性能”。事實,由于“經(jīng)驗”在計算機系統(tǒng)中主要以數(shù)據(jù)的形式存在,因此機器學習需要設法對數(shù)據(jù)進行分析
    的頭像 發(fā)表于 11-16 01:07 ?957次閱讀
    什么是<b class='flag-5'>機器</b><b class='flag-5'>學習</b>?通過<b class='flag-5'>機器</b><b class='flag-5'>學習</b>方法能解決哪些問題?

    eda在機器學習中的應用

    值和噪聲數(shù)據(jù)。通過繪制箱線圖、直方圖和散點圖,我們可以直觀地看到數(shù)據(jù)中的異常值和分布情況。例如,如果個數(shù)據(jù)集中的某個特征值遠高于其他值,這可能是
    的頭像 發(fā)表于 11-13 10:42 ?881次閱讀

    智浦eIQ AI和機器學習開發(fā)軟件增加兩款新工具

    智浦在eIQ AI和機器學習開發(fā)軟件中增加了帶有檢索增強生成(RAG)與微調(diào)的生成式人工智能(GenAI)流程和eIQ Time Series Studio,以便在小型微控制器(MCU)、功能更強大的大型應用處理器(MPU)等
    的頭像 發(fā)表于 11-01 11:39 ?1066次閱讀

    人工智能、機器學習和深度學習存在什么區(qū)別

    人工智能指的是在某種程度上顯示出類似人類智能的設備。AI有很多技術(shù),但其中很大的子集是機器學習——讓算法從數(shù)據(jù)
    發(fā)表于 10-24 17:22 ?2962次閱讀
    人工智能、<b class='flag-5'>機器</b><b class='flag-5'>學習</b>和深度<b class='flag-5'>學習</b>存在什么區(qū)別

    英偉股價一個月內(nèi)上漲25%

    統(tǒng)計數(shù)據(jù)顯示,在過去一個月中,英偉公司的股價上漲了 25%,股價目前已經(jīng)接近了歷史高位,英偉公司的市值已超越微軟公司,成為市值第二高的公司。 盡管已經(jīng)是處于瘋漲的階段,但是很多分析
    的頭像 發(fā)表于 10-11 15:23 ?847次閱讀

    AMD贊助多支FIRST機器人競賽團隊

    AMD 在 2024 賽季贊助了多支 FIRST 機器人競賽團隊。FIRST 機器人競賽旨在教導高中生如何構(gòu)建能夠執(zhí)行特定任務的機器人,同時也讓他們有機會
    的頭像 發(fā)表于 09-18 09:45 ?852次閱讀

    英偉震撼發(fā)布:全新AI模型參數(shù)規(guī)模躍升至80億量級

    8月23日,英偉宣布,其全新AI模型面世,該模型參數(shù)規(guī)模高達80億,具有精度高、計算效益大等優(yōu)勢,適用于GPU加速的數(shù)據(jù)中心、云及工作站環(huán)境。
    的頭像 發(fā)表于 08-23 16:08 ?1089次閱讀

    【《時間序列與機器學習》閱讀體驗】+ 時間序列的信息提取

    本人有些機器學習的基礎,理解起來點也不輕松,加油。 作者首先說明了時間序列的信息提取是時間序列分析的重要環(huán)節(jié),目標是從給定的時間序列
    發(fā)表于 08-14 18:00