一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

智能數(shù)據(jù):物聯(lián)網(wǎng)的下一個前沿

劉勇 ? 來源:阿兵888824 ? 作者:阿兵888824 ? 2022-07-21 08:10 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

收集數(shù)據(jù)從未像現(xiàn)在這樣容易。只需單擊幾下,您就可以啟動并運行,配備云必須提供的所有最佳數(shù)據(jù)技術(shù),準(zhǔn)備好囤積所有可能的數(shù)據(jù)。很難相信就在十年前,情況發(fā)生了巨大的不同。事實上,大規(guī)模收集數(shù)據(jù)只是最大的公司的一種選擇,這些組織既能負(fù)擔(dān)得起昂貴的服務(wù)器(這是存儲所有數(shù)據(jù)的唯一可行選擇),又能負(fù)擔(dān)得起少數(shù)能夠做到最好的工程師其中,在數(shù)據(jù)科學(xué)只是一個新興領(lǐng)域的時代。

如今,幸運的是,生成數(shù)據(jù)不再只是一項企業(yè)運動。事實上,多虧了物聯(lián)網(wǎng) (IoT),無論好壞,我們現(xiàn)在都變成了小型大數(shù)據(jù)工廠。到 2020 年,一個人將負(fù)責(zé)每秒生成 1.7 MB 的數(shù)據(jù)。即使是現(xiàn)在,僅一輛自動駕駛汽車每天就會產(chǎn)生 11TB 的數(shù)據(jù)。而且這種趨勢沒有減弱的跡象。相反:它只會增長。

對于所有數(shù)據(jù)愛好者來說,這顯然是個好消息。不久前,收集高質(zhì)量的數(shù)據(jù)集是一項繁重而艱巨的任務(wù)。盡管如此,我們總是想要更多。如果您的全新深度學(xué)習(xí)模型似乎“僅”達(dá)到 92% 的準(zhǔn)確率,那么最簡單、最容易找到的借口就是指責(zé)數(shù)據(jù)?!拔业臄?shù)據(jù)集不夠大”,我們漫不經(jīng)心地告訴我們的老板?!暗绻覀冊俚葞讉€星期,這個模型將是你見過的最好的模型!”

這似乎提出了一個重要問題:實際上有多少數(shù)據(jù)才足夠?但它實際上提出了一個更重要的問題:多少數(shù)據(jù)太多了?

有趣的是,我們在機(jī)器學(xué)習(xí)圈中并不經(jīng)常聽到這個問題,即使我們真的應(yīng)該聽到。雖然大數(shù)據(jù)是一個巨大的機(jī)會,但它也是一個巨大的 40 zettabyte 責(zé)任。如果數(shù)據(jù)確實是新的石油,我們需要把類比推到極限:數(shù)據(jù)是一種極其有利可圖的資源,但也像石油一樣,需要提煉。未能克制自己不受控制的使用使我們處于危險之中。簡而言之,我們今天使用和考慮數(shù)據(jù)的方式是非常不可持續(xù)的,這一事實仍然幾乎沒有達(dá)到集體意識。

也許,只是也許,這是錯誤的對話。也許大數(shù)據(jù)畢竟不是人工智能的真正答案。

讓我們退后一步,想想我們真正收集的是什么。回到數(shù)字化的早期,數(shù)據(jù)收集確實成本更高,所以我們選擇了我們的位置。我們更負(fù)責(zé)任,更認(rèn)真。隨著生成和收集數(shù)據(jù)變得越來越容易,對質(zhì)量的關(guān)注越來越少,而數(shù)量成為云存儲、云計算GPU 機(jī)器、大規(guī)模數(shù)據(jù)管理和傳輸系統(tǒng)等新技術(shù)的自然副產(chǎn)品。很快,數(shù)據(jù)變成了一種商品,但隨著數(shù)據(jù)和數(shù)據(jù)存儲的不斷升級,沒有人提出一個簡單的問題:我們?yōu)槭裁匆占@些?它甚至有意義嗎?

隨著模型構(gòu)建的商品化,數(shù)據(jù)護(hù)城河似乎是人工智能差異化的明顯答案,但我們都錯過了大局嗎?數(shù)據(jù)時代。它變得陳舊。最終,即使我們被誘使相信數(shù)據(jù)和信息是兩個截然不同的事物,但并非所有數(shù)據(jù)都是 平等的。畢竟,一個十幾歲的少年在發(fā)到 Instagram 之前自拍了 20 張自己的照片,這肯定與可搜索的醫(yī)學(xué)文獻(xiàn)目錄不同。

只要我們堅信硬件的進(jìn)步將使我們免受數(shù)據(jù)災(zāi)難的影響,這一切似乎都不是問題。數(shù)據(jù)存儲越來越便宜,計算能力也越來越容易獲得。只有當(dāng)數(shù)據(jù)的生成被工程師跟上摩爾定律的能力所抵消時,這才是真的。即使他們可以無限期地做到這一點,請考慮以下問題:如果并非所有數(shù)據(jù)都具有同等的信息性,那么處理子數(shù)據(jù)或冗余數(shù)據(jù)有什么意義?

我可以通過我的電腦屏幕聽到數(shù)百名數(shù)據(jù)科學(xué)家的聲音,他們抗議說,更大的訓(xùn)練集是他們痛苦的答案。畢竟,難道幾代專家沒有一次又一次地告訴我們,數(shù)據(jù)越多越好嗎?

事實并非如此簡單。顯然,獲得高質(zhì)量、足夠大的數(shù)據(jù)集是機(jī)器學(xué)習(xí)取得進(jìn)展的關(guān)鍵。然而,如果醫(yī)生告訴你生病了,急需大量攝入維生素C,你難道不想認(rèn)真地確定哪些食物確實含有上述維生素,而不是沖到你的廚房,吃掉你能在那里找到的每一種食物嗎?毫無疑問,吃下冰箱或食品儲藏室里的所有食物最終會讓你獲得一些急需的維生素C,但在這個過程中,你也會消耗很多空熱量。不幸的是,今天我們處理機(jī)器學(xué)習(xí)的方式似乎需要相當(dāng)于營養(yǎng)師的干預(yù)。

這似乎是一個愚蠢的類比,但這里有一些分量。例如,認(rèn)為功能更強(qiáng)大的GPU機(jī)器最終會讓我們擺脫困境的觀點是有嚴(yán)重缺陷的,就像認(rèn)為暴飲暴食會幫助我們攝入維生素一樣。實際上,我們收集的很多數(shù)據(jù)不僅與我們試圖使用它訓(xùn)練的模型冗余或無關(guān),而且往往對這些模型有害。例如,過度增長的訓(xùn)練集通常是不平衡的,可能會導(dǎo)致過度擬合。一些極端的異常值實際上可能會導(dǎo)致模型“忘卻”數(shù)據(jù)可能被錯誤標(biāo)記、錯誤收集或錯誤。

這就提出了一個重要的問題:如果數(shù)據(jù)科學(xué)家最適合就哪些數(shù)據(jù)可能對模型學(xué)習(xí)更有用提供反饋,那么為什么他們?nèi)匀粠缀醪粎⑴c旨在收集數(shù)據(jù)的硬件設(shè)備的設(shè)計,而且很少有機(jī)會提供數(shù)據(jù)收集過程本身的反饋?

答案實際上比最初看起來更簡單:正如營養(yǎng)學(xué)家根據(jù)不同客戶的獨特營養(yǎng)需求向他們提供不同的建議一樣,數(shù)據(jù)科學(xué)家也只能建議針對特定用例收集哪些數(shù)據(jù)。簡而言之,在訓(xùn)練給定模型的背景下,信息量最大的數(shù)據(jù)實際上可能與另一個模型完全無關(guān),這使得在源位置對數(shù)據(jù)進(jìn)行不可知分類具有挑戰(zhàn)性。

硬件顯然無法解決所有這些問題。它無法確定哪些數(shù)據(jù)行正在降低模型的準(zhǔn)確性。它無法弄清楚哪些是多余的。它不能重新標(biāo)記錯誤的數(shù)據(jù)點。換句話說,存儲太多數(shù)據(jù)并不能解決存儲太多數(shù)據(jù)帶來的問題。我們需要專注于創(chuàng)建一個額外的智能層,能夠從渣滓中分類有意義的數(shù)據(jù)。我們需要開始關(guān)注那些從較小的、經(jīng)過整理的數(shù)據(jù)集構(gòu)建出色模型的數(shù)據(jù)科學(xué)家。我們需要明白,是的,您可以過度喂食您的模型。

數(shù)據(jù)的未來并不存在于容納每個數(shù)據(jù)點的巨大服務(wù)器場中,而不管哪些數(shù)據(jù)點實際上是有用的。它存在于小型智能數(shù)據(jù)中。它是基于數(shù)據(jù)質(zhì)量及其與用例相關(guān)性的深思熟慮的方法,而不是主要基于數(shù)量的草率方法。對于我們這些沒有無休止的標(biāo)簽和服務(wù)器預(yù)算的人來說,它更容易獲得。換句話說,它既更智能,也更民主。

這是我們都可以落后的。

pYYBAGLXVWCAGvibAAAc7H8Ypd8467.jpg

Jennifer Prendki是 Alectio 的創(chuàng)始人兼首席執(zhí)行官。這家公司是她相信好的模型只能用好的數(shù)據(jù)建立的直接產(chǎn)物,而盲目地使用越來越大的訓(xùn)練集的蠻力方法是進(jìn)入人工智能的障礙如此之高的原因。在創(chuàng)立 Alectio 之前,Jennifer 是 Figure 8 的機(jī)器學(xué)習(xí)副總裁、數(shù)據(jù)標(biāo)簽的先驅(qū)、Atlassian 的首席數(shù)據(jù)科學(xué)家和沃爾瑪實驗室搜索團(tuán)隊的數(shù)據(jù)科學(xué)高級經(jīng)理。她擁有索邦大學(xué)粒子物理學(xué)博士學(xué)位。她最喜歡的口號是:“并非所有數(shù)據(jù)生來都是平等的”、“數(shù)據(jù)是新塑料”和“智能數(shù)據(jù) > 大數(shù)據(jù)”。


審核編輯 黃昊宇


聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 數(shù)據(jù)
    +關(guān)注

    關(guān)注

    8

    文章

    7250

    瀏覽量

    91648
  • 物聯(lián)網(wǎng)
    +關(guān)注

    關(guān)注

    2930

    文章

    46135

    瀏覽量

    390850
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    聯(lián)網(wǎng)藍(lán)牙模塊有哪些優(yōu)勢?

    更加廣泛地覆蓋范圍,從而提高了設(shè)備的可用性。安全性高:藍(lán)牙模塊采用了加密技術(shù),可以有效地保障通信數(shù)據(jù)的安全性,防止數(shù)據(jù)被非法獲取。這對于些對安全性要求較高的
    發(fā)表于 06-28 21:49

    聯(lián)網(wǎng)的應(yīng)用范圍有哪些?

    在生活中的小小體現(xiàn)。 從技術(shù)層面看,聯(lián)網(wǎng)融合了多種技術(shù),包括傳感器技術(shù)、網(wǎng)絡(luò)通信技術(shù)、大數(shù)據(jù)與云計算技術(shù)等。傳感器負(fù)責(zé)采集各種物理量、
    發(fā)表于 06-16 16:01

    聯(lián)網(wǎng)未來發(fā)展趨勢如何?

    ,人們才會更加信任和接受聯(lián)網(wǎng)技術(shù)。 綜上所述,聯(lián)網(wǎng)行業(yè)的未來發(fā)展趨勢非常廣闊。智能家居、工業(yè)互聯(lián)網(wǎng)
    發(fā)表于 06-09 15:25

    聯(lián)網(wǎng)工程師為什么要學(xué)Linux?

    聯(lián)網(wǎng)工程師需要掌握Linux的主要原因可以從技術(shù)生態(tài)、開發(fā)需求、行業(yè)應(yīng)用及就業(yè)競爭力四角度來分析: 、技術(shù)生態(tài)與行業(yè)適配性 1)嵌入式開發(fā)的主流平臺
    發(fā)表于 05-26 10:32

    ad7616 burst模式讀取數(shù)據(jù)時,是否可以在下一個convst啟動轉(zhuǎn)換?

    ad7616 burst模式讀取數(shù)據(jù)時,是否可以在下一個convst啟動轉(zhuǎn)換,但busy還沒有拉低的情況下繼續(xù)讀取上次轉(zhuǎn)換的數(shù)據(jù)嗎?主要是串行讀取時,有可能出現(xiàn)convst臨界的情
    發(fā)表于 04-15 07:50

    為什么選擇蜂窩聯(lián)網(wǎng)

    、Wi-SUN 或其他 LPWAN 相比,蜂窩聯(lián)網(wǎng)(包括 NB-IoT 和 LTE-M)更適合您的聯(lián)網(wǎng)項目,以下是其中些關(guān)鍵原因。 許
    發(fā)表于 03-17 11:42

    宇樹科技在聯(lián)網(wǎng)方面

    應(yīng)用,再到智能決策與數(shù)據(jù)分析,以及產(chǎn)業(yè)生態(tài)合作,宇樹科技正以其卓越的技術(shù)實力和前瞻性的戰(zhàn)略眼光,引領(lǐng)著機(jī)器人技術(shù)在聯(lián)網(wǎng)時代的創(chuàng)新與發(fā)展。未來,隨著
    發(fā)表于 02-04 06:48

    聯(lián)網(wǎng)就業(yè)有哪些高薪崗位?

    進(jìn)行分析和挖掘,提供有價值的信息和見解,以支持決策和業(yè)務(wù)發(fā)展。對于數(shù)據(jù)科學(xué)和人工智能有深入了解的數(shù)據(jù)分析專家,將迎來更多的高薪崗位機(jī)會。 聯(lián)網(wǎng)
    發(fā)表于 01-10 16:47

    Chiplet,半導(dǎo)體的下一個前沿?

    的服務(wù)器等切設(shè)備提供動力?,F(xiàn)代設(shè)備的明顯趨勢是可用于專門任務(wù)的空間越來越小,要求這些設(shè)備在有限的物理限制內(nèi)有效處理多個工作負(fù)載。半導(dǎo)體行業(yè)正在經(jīng)歷重大轉(zhuǎn)型。隨著
    的頭像 發(fā)表于 12-30 10:53 ?642次閱讀
    Chiplet,半導(dǎo)體的<b class='flag-5'>下一個</b><b class='flag-5'>前沿</b>?

    聯(lián)網(wǎng)學(xué)習(xí)路線來啦!

    按下面的步驟,獨立完成到兩實戰(zhàn)項目,鞏固學(xué)習(xí)效果,同時,也是積累自己的項目經(jīng)驗。 1)選擇實踐項目 根據(jù)自己的興趣和目標(biāo),選擇適合的聯(lián)網(wǎng)
    發(fā)表于 11-11 16:03

    聯(lián)網(wǎng)和大數(shù)據(jù)的關(guān)系

    的進(jìn)步。 聯(lián)網(wǎng)的定義和特點 聯(lián)網(wǎng)是指通過各種信息傳感設(shè)備,如射頻識別(RFID)、紅外感應(yīng)器、全球定位系統(tǒng)(GPS)和網(wǎng)絡(luò)傳感器等,
    的頭像 發(fā)表于 10-29 10:20 ?1755次閱讀

    智能系統(tǒng)與聯(lián)網(wǎng)的結(jié)合

    在數(shù)字化轉(zhuǎn)型的浪潮中,智能系統(tǒng)與聯(lián)網(wǎng)的結(jié)合成為了推動社會進(jìn)步的關(guān)鍵力量。聯(lián)網(wǎng)通過連接各種設(shè)備,收集和傳輸
    的頭像 發(fā)表于 10-29 09:46 ?859次閱讀

    使用tSPI協(xié)議減少下一個多電機(jī)BLDC設(shè)計的布線

    電子發(fā)燒友網(wǎng)站提供《使用tSPI協(xié)議減少下一個多電機(jī)BLDC設(shè)計的布線.pdf》資料免費下載
    發(fā)表于 09-26 10:40 ?0次下載
    使用tSPI協(xié)議減少<b class='flag-5'>下一個</b>多電機(jī)BLDC設(shè)計的布線

    什么是聯(lián)網(wǎng)技術(shù)?

    什么是聯(lián)網(wǎng)技術(shù)? 聯(lián)網(wǎng)技術(shù)(Internet of Things, IoT)是種通過信息傳感設(shè)備,按約定的協(xié)議,將任何物體與網(wǎng)絡(luò)相連
    發(fā)表于 08-19 14:08

    能否在ESP結(jié)束之前通過串行端口停止傳入的UDP數(shù)據(jù)包的傳輸以解析下一個UDP數(shù)據(jù)包?

    丟棄在ESP完成之前不需要的數(shù)據(jù)包,以便通過串行端口發(fā)送它以接收下一個數(shù)據(jù)包, 如果沒有,我必須按順序讀取所有傳入的數(shù)據(jù)包,需要的和不需要的, 而且波特率不足,主機(jī)處理器開銷大, 我能否在 ESP 結(jié)束之前通過串行端口停止傳入
    發(fā)表于 07-16 06:18