一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線(xiàn)課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

一個(gè)價(jià)值36.5萬(wàn)美元的機(jī)器學(xué)習(xí)模型打了水漂?

人工智能與大數(shù)據(jù)技術(shù) ? 來(lái)源:機(jī)器之心 ? 作者:機(jī)器之心 ? 2021-01-06 17:07 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

人們口口聲聲擔(dān)心「人工智能的推斷不可靠」,實(shí)則連個(gè)數(shù)據(jù)泄露的問(wèn)題都敢忽略。

人們常會(huì)提到,當(dāng)今流行的深度學(xué)習(xí)模型是黑箱狀態(tài)——給它一個(gè)輸入,模型就會(huì)決策出一個(gè)結(jié)果,其中的過(guò)程不為人所知。人們無(wú)法確切知道深度學(xué)習(xí)的決策依據(jù)以及結(jié)果是否可靠。近年來(lái),越來(lái)越多的新研究面向構(gòu)建可信的機(jī)器學(xué)習(xí)方法獲得了成果。 然而最近發(fā)生的一件事情告訴我們,很多時(shí)候被廣泛應(yīng)用的機(jī)器學(xué)習(xí)模型出問(wèn)題的原因,壓根就不會(huì)深入到算法層面。一點(diǎn)數(shù)據(jù)上的紕漏就會(huì)造成讓人啼笑皆非的結(jié)果,而且最重要的是,這樣的事比所謂「模型不可解釋」造成的損失還要多出不少。

上個(gè)星期,美國(guó)賓夕法尼亞州歷史保護(hù)官員和交通部門(mén)之間發(fā)送了大量郵件,其中內(nèi)容混合了悲傷、困惑和沮喪的情緒。這一丑聞造成的影響仍在繼續(xù),在官方做出回應(yīng)之前,我們還不能了解更多情況(盡管此事在當(dāng)?shù)乜脊艑W(xué)家之間已經(jīng)人盡皆知了)。 一個(gè)價(jià)值 36.5 萬(wàn)美元的機(jī)器學(xué)習(xí)模型打了水漂。 發(fā)生甚么事了? 五年前,一些人帶著創(chuàng)意拜訪(fǎng)了賓州交通部,提出為史前考古遺址創(chuàng)建一個(gè)全州范圍預(yù)測(cè)模型。最終,政府部門(mén)選擇與一家大型工程公司合作,后者一直在考古調(diào)查方面花錢(qián)。

從合同中我們可以看到,這家公司花費(fèi)了納稅人 36.59 萬(wàn)美元,承諾提供一款最強(qiáng)大的模型,該模型還整合了 GIS(地理信息系統(tǒng))疊加分析,其結(jié)果可供考古學(xué)家們使用。

從那以后直到今天,絕大多數(shù)賓夕法尼亞州交通部門(mén)的項(xiàng)目和所有需要進(jìn)行文化資源調(diào)查的項(xiàng)目,在進(jìn)行前都使用了這個(gè)機(jī)器學(xué)習(xí)模型的推斷結(jié)果。

從數(shù)據(jù)準(zhǔn)備、模型選擇再到性能測(cè)試,這一項(xiàng)目原本看起來(lái)有模有樣,然而錯(cuò)誤一旦被人揭穿,情況就變得不忍直視了。 他們將待預(yù)測(cè)區(qū)域當(dāng)做負(fù)樣本 從 2013 年中到 2015 年,項(xiàng)目承包商花了一年半左右的時(shí)間向賓州交通部門(mén)交付了一個(gè)模型和 7 冊(cè)文檔。 不幸的是,到目前為止,似乎沒(méi)有人閱讀過(guò)該文檔。模型似乎會(huì)輸出一些毫無(wú)意義的數(shù)字,而背后原因非常神奇。

22017590-4a59-11eb-8b86-12bb97331649.png

咨詢(xún)公司將未調(diào)研的土地用作負(fù)樣本數(shù)據(jù)集,但是,這些土地不就是模型將要預(yù)測(cè)的那部分嗎?一個(gè)花費(fèi)了 30 多萬(wàn)美元的模型,卻真實(shí)地包含了這樣的錯(cuò)誤。

223fffe0-4a59-11eb-8b86-12bb97331649.png

無(wú)論如何,在一個(gè)(混合了回歸和隨機(jī)森林的)模型中使用 null 數(shù)據(jù)都是不合適的,這些本不應(yīng)該作為負(fù)樣本數(shù)據(jù)而出現(xiàn)。即使這些 null 數(shù)據(jù)存在于自變量中,而不是因變量,它們依舊能夠?qū)δP偷耐评斫Y(jié)果造成嚴(yán)重破壞。 他們檢查項(xiàng)目時(shí)沒(méi)有使用數(shù)據(jù)處理的最佳實(shí)踐 可為什么開(kāi)發(fā)團(tuán)隊(duì)的數(shù)據(jù)科學(xué)家們辛苦工作了一年半,也沒(méi)有意識(shí)到他們?cè)诘谝徊街芯头噶隋e(cuò)?這與他們檢查項(xiàng)目的方式有關(guān)。 一般來(lái)說(shuō),檢查的金標(biāo)準(zhǔn)是留出一部分隨機(jī)選擇的部分。此時(shí),只要你訓(xùn)練了模型,就可以知道該模型在給到真實(shí)數(shù)據(jù)時(shí)是否 work。

22708f5c-4a59-11eb-8b86-12bb97331649.png

顯然,在這件事中,相關(guān)研究人員未曾進(jìn)行這樣的驗(yàn)證。也許他們使用了一些神秘的統(tǒng)計(jì)方法?這就不得而知了。 他們將已知地點(diǎn)視為隨機(jī)采樣的結(jié)果 眾所周知,即使在一個(gè)項(xiàng)目區(qū)域內(nèi),也并非所有土地的采樣率都相同。僅使用鏟測(cè)試坑(Shovel Test Pit),并假設(shè)你有 100 英畝的土地,其中 50 英畝是高概率,50 英畝是低概率,并以不同的間隔(常見(jiàn)的有 15 米、30 米)對(duì)其進(jìn)行測(cè)試。這意味著你有 80% 的測(cè)試是在高概率土地上進(jìn)行的,因?yàn)槟憧梢栽谝挥€土地上以 15 米的間隔進(jìn)行 16 次鏟土測(cè)試,以 30 米的間隔進(jìn)行約 4 次測(cè)試。因此你需要在高概率部分上找到 80% 的站點(diǎn)。 因此我們有一些已知的站點(diǎn),這些站點(diǎn)并不是從隨機(jī)采樣的土地中發(fā)現(xiàn)的,而是從人們認(rèn)為能夠找到它們的位置發(fā)現(xiàn)的。 直覺(jué)上,大多數(shù)考古學(xué)家都知道這一點(diǎn)。這很重要,因?yàn)橐阎恼龢颖緮?shù)據(jù)集的自變量分布已用于這些統(tǒng)計(jì)測(cè)試。這種分布是有偏置的,數(shù)據(jù)科學(xué)家不知道如何解釋這些偏置。 因此,我們需要留出一部分?jǐn)?shù)據(jù)。 項(xiàng)目管理,沒(méi)有管理?

花費(fèi) 36.5 萬(wàn)美元,并不意味著簡(jiǎn)單地讓承包商派一個(gè)人過(guò)來(lái),在辦公室角落里搗鼓幾年,而無(wú)需他人管理。 追溯到 2014 年初,這個(gè)項(xiàng)目在交付給賓州交通部門(mén)的第三卷文檔中,已經(jīng)犯了致命的錯(cuò)誤(使用 null 數(shù)據(jù)作為負(fù)樣本數(shù)據(jù))。難道這個(gè)項(xiàng)目無(wú)人監(jiān)督嗎?為什么在向賓州交通部門(mén)收取數(shù)十萬(wàn)美元之前,這個(gè)融合了 GIS 和機(jī)器學(xué)習(xí)的模型不值得其他人(無(wú)論是同事還是上級(jí))關(guān)注? 交通部門(mén)盡到職責(zé)了嗎? 交付文檔之后,賓州交通部門(mén)中誰(shuí)閱讀過(guò)這些文檔?作者猜測(cè)可能沒(méi)人閱讀,也沒(méi)人能理解這些文檔。不過(guò)這純粹是猜測(cè)了,我們更愿意相信文檔被讀過(guò),只是讀地不仔細(xì)。

針對(duì)該模型中最大的錯(cuò)誤而言,任何上過(guò)大學(xué)統(tǒng)計(jì)學(xué)課程的人都應(yīng)該能夠解決這個(gè)問(wèn)題。但是正如有人指出的那樣,考古學(xué)家很少學(xué)習(xí)這些數(shù)學(xué)課程,因此可能不會(huì)有考古學(xué)家來(lái)指出這些錯(cuò)誤。 教訓(xùn) 這一錯(cuò)誤浪費(fèi)了納稅人 36.5 萬(wàn)美元,顯示了美國(guó)交通部門(mén)和售賣(mài)該模型的公司在質(zhì)量控制方面的漫不經(jīng)心,同時(shí)也表明,一些有問(wèn)題的模型目前仍在某些重要的大型項(xiàng)目中使用。 老實(shí)說(shuō),如果想要一個(gè)預(yù)測(cè)模型,你拿出這個(gè)項(xiàng)目 3–5% 的經(jīng)費(fèi)就夠了。把模型做得簡(jiǎn)單一點(diǎn),這樣你就能自己對(duì)它進(jìn)行更新、測(cè)試。即使這個(gè)模型沒(méi)有大量的質(zhì)量控制問(wèn)題,復(fù)雜的數(shù)學(xué)模型也不比簡(jiǎn)單的性能要好。 揭露此事的人,Medium 博主 Archaic Inquiries 表示,他目前還在等待 SHPO 和 DOT 的回復(fù)。他特別強(qiáng)調(diào),他既不在這個(gè)州工作,近期也沒(méi)有這個(gè)打算,寫(xiě)這篇批評(píng)文章也沒(méi)拿到什么報(bào)酬。他的動(dòng)機(jī)很簡(jiǎn)單:看到這個(gè)模型由于缺乏監(jiān)管而用于政策指導(dǎo),作為一名專(zhuān)業(yè)人員的他為自己的領(lǐng)域感到尷尬。

機(jī)器學(xué)習(xí)的推斷結(jié)果出錯(cuò)造成的損失有大有小,在這里可能意味著不少古人類(lèi)遺跡被忽略,但最可怕的地方在于,在機(jī)器學(xué)習(xí)技術(shù)被廣泛應(yīng)用的今天,這樣的錯(cuò)誤其實(shí)屢見(jiàn)不鮮。 在社交網(wǎng)絡(luò)上,賓州算法事件被機(jī)器學(xué)習(xí)圈的人廣泛討論,有人表示:「我遇到的大多數(shù)數(shù)據(jù)科學(xué)家,都完全沒(méi)有意識(shí)到這種錯(cuò)誤推理的問(wèn)題(數(shù)據(jù)泄露),而且因?yàn)閷?duì)于機(jī)器學(xué)習(xí)的無(wú)條件信任,甚至相信算法,更甚于相信自己的領(lǐng)域知識(shí)?!?「我認(rèn)識(shí)一個(gè)政府機(jī)構(gòu)的數(shù)據(jù)科學(xué)家,有很多次,我不得不向他解釋一些數(shù)據(jù)科學(xué)領(lǐng)域中的基本概念。我不會(huì)點(diǎn)明他在哪個(gè)機(jī)構(gòu),但當(dāng)美國(guó)人的生命受到威脅時(shí),它會(huì)是人們首先想要求助的那個(gè)部門(mén)。」在 Reddit 上,用戶(hù) Stereoisomer 說(shuō)道。 不知此類(lèi)在技術(shù)上沒(méi)有什么解決難度的問(wèn)題,以后會(huì)不會(huì)越來(lái)越少。

原文標(biāo)題:模型花費(fèi)幾十萬(wàn)美元,五年之間指導(dǎo)無(wú)數(shù)項(xiàng)目,才發(fā)現(xiàn)負(fù)樣本用的是null?

文章出處:【微信公眾號(hào):人工智能與大數(shù)據(jù)技術(shù)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

責(zé)任編輯:haq

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • AI
    AI
    +關(guān)注

    關(guān)注

    88

    文章

    35109

    瀏覽量

    279583
  • 人工智能
    +關(guān)注

    關(guān)注

    1806

    文章

    49011

    瀏覽量

    249347
  • 機(jī)器學(xué)習(xí)

    關(guān)注

    66

    文章

    8502

    瀏覽量

    134589
  • 深度學(xué)習(xí)
    +關(guān)注

    關(guān)注

    73

    文章

    5561

    瀏覽量

    122789

原文標(biāo)題:模型花費(fèi)幾十萬(wàn)美元,五年之間指導(dǎo)無(wú)數(shù)項(xiàng)目,才發(fā)現(xiàn)負(fù)樣本用的是null?

文章出處:【微信號(hào):TheBigData1024,微信公眾號(hào):人工智能與大數(shù)據(jù)技術(shù)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    機(jī)器學(xué)習(xí)模型市場(chǎng)前景如何

    當(dāng)今,隨著算法的不斷優(yōu)化、數(shù)據(jù)量的爆炸式增長(zhǎng)以及計(jì)算能力的飛速提升,機(jī)器學(xué)習(xí)模型的市場(chǎng)前景愈發(fā)廣闊。下面,AI部落小編將探討機(jī)器學(xué)習(xí)
    的頭像 發(fā)表于 02-13 09:39 ?359次閱讀

    采用FP8混合精度,DeepSeek V3訓(xùn)練成本僅557.6萬(wàn)美元!

    模型需要花費(fèi)約4684.8萬(wàn)美元。然而,隨著技術(shù)的進(jìn)步,這成本正在迅速降低。DeepSeek V3的出現(xiàn),標(biāo)志著訓(xùn)練成本的大幅下降,其訓(xùn)練成本僅為557.6萬(wàn)美元,相較于之前的
    的頭像 發(fā)表于 01-13 11:12 ?1267次閱讀

    Viettel High Tech簽署數(shù)百萬(wàn)美元合同,為中東部署5G網(wǎng)絡(luò)

    近日,Viettel High Tech (VHT)與High Cloud Technologies (HCT)在越南河內(nèi)簽署了價(jià)值超過(guò)100萬(wàn)美元的合同,旨在為中東市場(chǎng)部署5G系統(tǒng)。
    的頭像 發(fā)表于 12-25 13:48 ?577次閱讀

    LambdaTest獲3800萬(wàn)美元融資,加速Q(mào)A革新

    近日,領(lǐng)先的云端統(tǒng)測(cè)試平臺(tái)LambdaTest宣布成功完成3800萬(wàn)美元的新輪融資,本輪融資由Avataar Ventures領(lǐng)投,Qualcomm Ventures參與投資。至此
    的頭像 發(fā)表于 12-24 11:46 ?646次閱讀

    【「具身智能機(jī)器人系統(tǒng)」閱讀體驗(yàn)】+數(shù)據(jù)在具身人工智能中的價(jià)值

    ,數(shù)據(jù)對(duì)于訓(xùn)練增強(qiáng)和優(yōu)化機(jī)器人能力的深度學(xué)習(xí)模型至關(guān)重要。 從財(cái)務(wù)上講,用戶(hù)數(shù)據(jù)對(duì)互聯(lián)網(wǎng)公司具有重要價(jià)值,估計(jì)每個(gè)用戶(hù) 600 美元,考慮到
    發(fā)表于 12-24 00:33

    FF再獲3000萬(wàn)美元輪融資

    Future” 或 “公司”)今天宣布,繼9月份的3000萬(wàn)美元融資完成之后,又完成約 3000 萬(wàn)美元的現(xiàn)金融資。該筆資金將用于推動(dòng)公司及其FX戰(zhàn)略的發(fā)展。FX戰(zhàn)略旨在美國(guó)市場(chǎng)推出“兩倍性能半價(jià)格”的大眾放量車(chē)型,以填補(bǔ)美
    的頭像 發(fā)表于 12-23 16:18 ?545次閱讀

    英特爾前CEO基辛格獲1200萬(wàn)美元離職補(bǔ)償

    來(lái)看,基辛格將享有18個(gè)月的底薪,總計(jì)約190萬(wàn)美元,以確保他在離職后的段時(shí)間內(nèi)仍有穩(wěn)定的經(jīng)濟(jì)來(lái)源。此外,他還有權(quán)獲得原本目標(biāo)獎(jiǎng)金的1.5倍,即340萬(wàn)美元的1.5倍,這筆款項(xiàng)將分1
    的頭像 發(fā)表于 12-04 13:52 ?459次閱讀

    北汽集團(tuán)戰(zhàn)略投資小馬智行7035萬(wàn)美元

    日前,北汽集團(tuán)戰(zhàn)略投資小馬智行7035萬(wàn)美元,小馬智行于11月27日在美國(guó)納斯達(dá)克掛牌上市(股票代碼“PONY”),公開(kāi)發(fā)行定價(jià)為13美元/ADS,融資額達(dá)2.99億美元,成為今年以來(lái)美股自動(dòng)駕駛領(lǐng)域最大規(guī)模IPO。
    的頭像 發(fā)表于 12-02 11:46 ?778次閱讀

    訊芯投資8000萬(wàn)美元擴(kuò)越南芯片產(chǎn)能

    鴻海集團(tuán)旗下的封裝廠(chǎng)商訊芯計(jì)劃投資8000萬(wàn)美元,以擴(kuò)大其在越南的芯片制造產(chǎn)能。這筆投資中,訊芯將出資2000萬(wàn)美元,其余6000萬(wàn)美元則通過(guò)貸款融資獲得,主要用于擴(kuò)充位于越南北江省的廠(chǎng)區(qū)產(chǎn)能。
    的頭像 發(fā)表于 11-04 14:16 ?819次閱讀

    Magnachip第三季度綜合收入達(dá)6650萬(wàn)美元,MSS產(chǎn)品需求持續(xù)增長(zhǎng)

    10月30日,Magnachip揭曉了其2024年第三季度的財(cái)務(wù)成績(jī)單。   據(jù)財(cái)報(bào)披露,Magnachip第三季度綜合收入為6650萬(wàn)美元,恰好落在公司先前給出的6150萬(wàn)至6650萬(wàn)美元
    的頭像 發(fā)表于 11-01 14:56 ?684次閱讀

    AI大模型與傳統(tǒng)機(jī)器學(xué)習(xí)的區(qū)別

    AI大模型與傳統(tǒng)機(jī)器學(xué)習(xí)在多個(gè)方面存在顯著的區(qū)別。以下是對(duì)這些區(qū)別的介紹: 、模型規(guī)模與復(fù)雜度 AI大
    的頭像 發(fā)表于 10-23 15:01 ?2564次閱讀

    小馬智行獲得廣汽集團(tuán)2700萬(wàn)美元輪投資

    近日,自動(dòng)駕駛解決方案提供商小馬智行宣布獲得廣汽集團(tuán)2700萬(wàn)美元的新輪投資。
    的頭像 發(fā)表于 10-12 16:01 ?597次閱讀

    印度CG Power斥資3600萬(wàn)美元收購(gòu)瑞薩射頻部門(mén)

    近日,印度CG Power宣布將以3600萬(wàn)美元的價(jià)格收購(gòu)日本瑞薩電子的RF(射頻)組件業(yè)務(wù)。這收購(gòu)計(jì)劃標(biāo)志著CG Power在半導(dǎo)體領(lǐng)域的進(jìn)步拓展,同時(shí)也為瑞薩電子提供了
    的頭像 發(fā)表于 10-09 17:04 ?1012次閱讀

    Defcon AI獲得4400萬(wàn)美元種子輪融資

    近日,國(guó)防科技服務(wù)領(lǐng)域的創(chuàng)新先鋒Defcon AI宣布成功完成4400萬(wàn)美元的種子輪融資。本輪融資由Fifth Growth Fund、Red Cell Partners及BVP等知名投資機(jī)構(gòu)共同參投,彰顯了市場(chǎng)對(duì)Defcon AI技術(shù)實(shí)力與發(fā)展前景的高度認(rèn)可。
    的頭像 發(fā)表于 08-23 16:42 ?969次閱讀

    Mytra獲5000萬(wàn)美元B輪融資,加速倉(cāng)儲(chǔ)機(jī)器人技術(shù)創(chuàng)新

    倉(cāng)儲(chǔ)機(jī)器人領(lǐng)域的創(chuàng)新先鋒Mytra近日宣布了項(xiàng)重大融資喜訊,成功完成了高達(dá)5000萬(wàn)美元(折合人民幣約3.6億元)的B輪融資。這筆巨額資金的注入,無(wú)疑為Mytra的快速發(fā)展注入了強(qiáng)勁動(dòng)力,標(biāo)志著其在倉(cāng)儲(chǔ)自動(dòng)化與智能化領(lǐng)域的領(lǐng)先
    的頭像 發(fā)表于 07-27 16:21 ?2625次閱讀