一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

公開機(jī)器學(xué)習(xí)模型代碼可能會有哪些風(fēng)險(xiǎn)?

DPVg_AI_era ? 來源:lp ? 2019-03-08 09:26 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

作為個人開發(fā)者,應(yīng)不應(yīng)該將自己的項(xiàng)目或模型、數(shù)據(jù)等進(jìn)行開源?公開這些數(shù)據(jù)有哪些風(fēng)險(xiǎn)?本文作者是斯坦福大學(xué)博士,長期從事開源機(jī)器學(xué)習(xí)研究,經(jīng)常接觸和處理敏感數(shù)據(jù),他結(jié)合自己的經(jīng)驗(yàn),為這個問題提供了一些建議。

公開機(jī)器學(xué)習(xí)模型代碼可能會有哪些風(fēng)險(xiǎn)?

OpenAI 最近因?yàn)閯?chuàng)造了多項(xiàng)機(jī)器學(xué)習(xí)新任務(wù)的最優(yōu)性能記錄,但卻不開放源代碼而遭到越來越多的指摘。OpenAI發(fā)推表示,“由于擔(dān)心這些技術(shù)可能被用做惡意目的,不會放出訓(xùn)練后的模型代碼?!?/p>

對OpenAI這個決定的批評之聲不少,比如這樣會對其他團(tuán)隊(duì)重現(xiàn)研究這些研究結(jié)果造成阻礙,而研究結(jié)果的可重現(xiàn)性是確保研究真實(shí)的基礎(chǔ)。而且,這樣做也可能導(dǎo)致媒體對人工智能技術(shù)產(chǎn)生一種由于未知而生的恐懼。

上面這段Twitter引起了我的注意。Anima Anandkumar在彌合機(jī)器學(xué)習(xí)的研究和實(shí)際應(yīng)用之間的差距方面擁有豐富的經(jīng)驗(yàn)。我們是亞馬遜AWS的同事,最近還在一起討論了如何將機(jī)器學(xué)習(xí)技術(shù)從博士實(shí)驗(yàn)室推向市場的問題。

Stephen Merity對社交媒體的回應(yīng)進(jìn)行了總結(jié),他表示,機(jī)器學(xué)習(xí)社區(qū)在這方面的經(jīng)驗(yàn)其實(shí)不多:

OpenAI不公開模型源代碼是對是錯?這事各位可以自行判斷。不過在我看來,OpenAI在兩個方面做得不夠好,應(yīng)該就是否可以檢測到虛假內(nèi)容進(jìn)行調(diào)查,并以多種語言發(fā)布模型,以對抗對英語產(chǎn)生的單語種偏見。

對于個人機(jī)器學(xué)習(xí)項(xiàng)目而言,下面給出一些關(guān)于是否應(yīng)該公開發(fā)布模型或數(shù)據(jù)集的決策時的一些常見問題:

在開源我的模型之前是否應(yīng)該三思?

是的。如果你的模型是基于私有數(shù)據(jù)構(gòu)建的,則可以對其進(jìn)行逆向工程以提取出這些數(shù)據(jù)。

如果我的模型100%來自公共數(shù)據(jù),那我是否還要考慮將模型開源?

是的。如果要在新的語言環(huán)境重新發(fā)布數(shù)據(jù),已發(fā)布的數(shù)據(jù)可能會變成敏感數(shù)據(jù),而且,聚合后的數(shù)據(jù)(包括機(jī)器學(xué)習(xí)模型)可能比分散的各個數(shù)據(jù)點(diǎn)更加敏感。你需要考慮:重新構(gòu)建數(shù)據(jù)或數(shù)據(jù)模型會產(chǎn)生哪些影響,要不要由我自己或我所在的組織公開發(fā)布?

即使單個數(shù)據(jù)點(diǎn)并非敏感數(shù)據(jù),聚合數(shù)據(jù)被視為敏感也是很常見的情況。這是許多軍事組織的標(biāo)準(zhǔn)做法:當(dāng)他們匯總來自一組來源的數(shù)據(jù)時,他們會根據(jù)其敏感程度重新評估該匯總信息。聚合通常是統(tǒng)計(jì)學(xué)或無監(jiān)督機(jī)器學(xué)習(xí)的結(jié)果,但是基于該數(shù)據(jù)構(gòu)建的監(jiān)督模型同樣適用。

所以,你應(yīng)該經(jīng)常自問:我的模型中的聚合數(shù)據(jù)是否比單個數(shù)據(jù)點(diǎn)更為敏感?

我應(yīng)該如何評估開源風(fēng)險(xiǎn)?

在安全性方面考慮,可以將每個策略視為“可被攻破的”。風(fēng)險(xiǎn)防范的基本目標(biāo)是使攻破某些安全措施的成本高于被保護(hù)數(shù)據(jù)的價值。

所以要考慮的問題是,從你的研究論文中復(fù)制模型的成本,是否值得為那些想要出于負(fù)面目的使用這些技術(shù)的人付出這樣的努力?應(yīng)該要明確這一點(diǎn)。這是決定是否將模型開源的一個重要因素。

我最近與Facebook進(jìn)行了長時間的會談,討論的是出任一個職位,專門負(fù)責(zé)發(fā)現(xiàn)假新聞。從一個行內(nèi)人的角度來看,我最想知道的是這樣一件事:我能否以編程的方式成功檢測這種模型輸出,以便對抗假新聞?

我認(rèn)為在Facebook上打擊假新聞是任何人都可以做的最重要的事情之一,來自O(shè)penAI的這項(xiàng)研究將會對此有所幫助。而且,如果能夠創(chuàng)建一個可以識別生成內(nèi)容的模型池,那么假新聞可能會更難以蒙混通過自動檢測系統(tǒng)。

如果你能夠定量地證明,對項(xiàng)目數(shù)據(jù)的惡意使用可以進(jìn)行更容易/更難的打擊,這也將是你做出是否開源的決策過程中的另一個重要因素。

這算是機(jī)器學(xué)習(xí)中的新問題嗎?

其實(shí)不算是,你可以從過去的經(jīng)驗(yàn)中學(xué)到很多東西。

如果你面臨類似的困境,請尋找具有深度知識的人來討論受影響最大的社區(qū)(最好是來自該社區(qū)內(nèi)部的人士),以及過去遇到類似的機(jī)器學(xué)習(xí)問題相關(guān)問題的人。

我是否應(yīng)該平衡機(jī)器學(xué)習(xí)的負(fù)面應(yīng)用和正面應(yīng)用?

是的。發(fā)布具有積極應(yīng)用意義的模型,很容易對世界產(chǎn)生積極影響。而限制具有許多負(fù)面應(yīng)用領(lǐng)域的模型的發(fā)布,很難對世界產(chǎn)生積極影響。

這其實(shí)是OpenAI的另一個失敗之處:缺乏多樣性。OpenAI比任何其他研究團(tuán)隊(duì)都更多地發(fā)布了僅適用于英語模型和研究成果。從全球來看,英語每天僅占全世界對話的5%。在句子中的單詞順序、標(biāo)準(zhǔn)化拼寫和“單詞”作為機(jī)器學(xué)習(xí)功能單元上,英語是一個異類。

OpenAI的研究依賴于以下三個方面:單詞順序,單詞特征,拼寫一致性。這些研究能夠適用于世界上大多數(shù)語言嗎?我們不知道,因?yàn)闆]有測試。OpenAI的研究確實(shí)表明,我們需要擔(dān)心這種類型的英語生成內(nèi)容,但并沒有表明,今天的假新聞的流傳,更有可能通過除英語之外的其他100多種語言進(jìn)行。

如果你不想進(jìn)入假新聞等應(yīng)用程序的灰色區(qū)域,那么可以選擇一個本質(zhì)上更具影響力的研究領(lǐng)域,例如低資源語言中與健康相關(guān)的文本的語言模型。

我需要在多大程度上考慮項(xiàng)目應(yīng)用實(shí)例的敏感性?

當(dāng)我為AWS的命名實(shí)體解析服務(wù)開發(fā)產(chǎn)品時,必須考慮是否要將街道級地址識別為顯式字段,并可能將坐標(biāo)映射到相應(yīng)地址。我們認(rèn)為這本身就是敏感信息,不應(yīng)該在一般解決方案中進(jìn)行產(chǎn)品化。

在任何研究項(xiàng)目中都要考慮這一點(diǎn):是否能夠隱含或明確地識別出模型中的敏感信息?

只是因?yàn)槠渌硕奸_源了自己的模型,因此我也應(yīng)該開源嗎?

當(dāng)然不是,你應(yīng)該對自己項(xiàng)目的影響力保持一份懷疑。無論你是否贊同OpenAI的決定,都應(yīng)該做出明智的決定,而不是盲目跟隨他人。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • 人工智能
    +關(guān)注

    關(guān)注

    1806

    文章

    49011

    瀏覽量

    249364
  • 開源
    +關(guān)注

    關(guān)注

    3

    文章

    3680

    瀏覽量

    43816
  • 機(jī)器學(xué)習(xí)

    關(guān)注

    66

    文章

    8502

    瀏覽量

    134592

原文標(biāo)題:斯坦福博士:個人開發(fā)者要不要開源項(xiàng)目模型和代碼?

文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    “兩會”熱議“機(jī)器人和飛行汽車”,核心動力電機(jī)可能會

    :“兩會”熱議“機(jī)器人和飛行汽車”,核心動力電機(jī)可能會火.doc 本文系網(wǎng)絡(luò)轉(zhuǎn)載,版權(quán)歸原作者所有。本文所用視頻、圖片、文字如涉及作品版權(quán)問題,請第一時間告知,刪除內(nèi)容!
    發(fā)表于 03-31 13:35

    機(jī)器學(xué)習(xí)模型市場前景如何

    當(dāng)今,隨著算法的不斷優(yōu)化、數(shù)據(jù)量的爆炸式增長以及計(jì)算能力的飛速提升,機(jī)器學(xué)習(xí)模型的市場前景愈發(fā)廣闊。下面,AI部落小編將探討機(jī)器學(xué)習(xí)
    的頭像 發(fā)表于 02-13 09:39 ?359次閱讀

    《具身智能機(jī)器人系統(tǒng)》第7-9章閱讀心得之具身智能機(jī)器人與大模型

    醫(yī)療領(lǐng)域,手術(shù)輔助機(jī)器人需要毫米級的精確控制,書中有介紹基于視覺伺服的實(shí)時控制算法,以及如何利用大模型優(yōu)化手術(shù)路徑規(guī)劃。工業(yè)場景中,協(xié)作機(jī)器人面臨的主要挑戰(zhàn)是快速適應(yīng)新工藝流程。具身智能通過在線
    發(fā)表于 12-24 15:03

    AI模型部署邊緣設(shè)備的奇妙之旅:目標(biāo)檢測模型

    可能在訓(xùn)練數(shù)據(jù)上表現(xiàn)良好,但在遇到未曾見過的數(shù)據(jù)(例如不同環(huán)境、光照條件、角度等)時性能可能會下降。 對異常值敏感:如果訓(xùn)練集中包含異常值或者噪聲數(shù)據(jù),這可能導(dǎo)致模型
    發(fā)表于 12-19 14:33

    cmp在機(jī)器學(xué)習(xí)中的作用 如何使用cmp進(jìn)行數(shù)據(jù)對比

    機(jī)器學(xué)習(xí)領(lǐng)域,"cmp"這個術(shù)語可能并不是一個常見的術(shù)語,它可能是指"比較"(comparison)的縮寫。 比較在機(jī)器
    的頭像 發(fā)表于 12-17 09:35 ?878次閱讀

    深度學(xué)習(xí)模型的魯棒性優(yōu)化

    。異常值和噪聲可能會誤導(dǎo)模型的訓(xùn)練,導(dǎo)致模型在面對新數(shù)據(jù)時表現(xiàn)不佳。 數(shù)據(jù)標(biāo)準(zhǔn)化/歸一化 :將數(shù)據(jù)轉(zhuǎn)換到同一尺度上,有助于模型更好地學(xué)習(xí)數(shù)據(jù)
    的頭像 發(fā)表于 11-11 10:25 ?1184次閱讀

    魯棒性在機(jī)器學(xué)習(xí)中的重要性

    金融風(fēng)險(xiǎn)評估。這些應(yīng)用場景對模型的魯棒性提出了極高的要求。 魯棒性的定義 魯棒性通常被定義為系統(tǒng)在面對不確定性和變化時仍能保持其功能的能力。在機(jī)器學(xué)習(xí)中,這意味著即使輸入數(shù)據(jù)包含錯誤、
    的頭像 發(fā)表于 11-11 10:19 ?1259次閱讀

    “0元購”智元靈犀X1機(jī)器人,軟硬件全套圖紙和代碼公開!資料免費(fèi)下載!

    、仿真Sim2Sim、Sim2Real代碼、強(qiáng)化學(xué)習(xí)訓(xùn)練代碼、模型轉(zhuǎn)換、推理工具,和調(diào)試工具(數(shù)據(jù)可視化、遙控器)等等,“一站式”全套圖紙和代碼
    發(fā)表于 10-25 15:20

    AI大模型與深度學(xué)習(xí)的關(guān)系

    AI大模型與深度學(xué)習(xí)之間存在著密不可分的關(guān)系,它們互為促進(jìn),相輔相成。以下是對兩者關(guān)系的介紹: 一、深度學(xué)習(xí)是AI大模型的基礎(chǔ) 技術(shù)支撐 :深度學(xué)習(xí)
    的頭像 發(fā)表于 10-23 15:25 ?2879次閱讀

    AI大模型與傳統(tǒng)機(jī)器學(xué)習(xí)的區(qū)別

    AI大模型與傳統(tǒng)機(jī)器學(xué)習(xí)在多個方面存在顯著的區(qū)別。以下是對這些區(qū)別的介紹: 一、模型規(guī)模與復(fù)雜度 AI大模型 :通常包含數(shù)十億甚至數(shù)萬億的參
    的頭像 發(fā)表于 10-23 15:01 ?2565次閱讀

    【《時間序列與機(jī)器學(xué)習(xí)》閱讀體驗(yàn)】+ 時間序列的信息提取

    之前對《時間序列與機(jī)器學(xué)習(xí)》一書進(jìn)行了整體瀏覽,并且非常輕松愉快的完成了第一章的學(xué)習(xí),今天開始學(xué)習(xí)第二章“時間序列的信息提取”。 先粗略的翻閱第二章,內(nèi)容復(fù)雜,充斥了大量的定義、推導(dǎo)計(jì)
    發(fā)表于 08-14 18:00

    【「時間序列與機(jī)器學(xué)習(xí)」閱讀體驗(yàn)】+ 簡單建議

    這本書以其系統(tǒng)性的框架和深入淺出的講解,為讀者繪制了一幅時間序列分析與機(jī)器學(xué)習(xí)融合應(yīng)用的宏偉藍(lán)圖。作者不僅扎實(shí)地構(gòu)建了時間序列分析的基礎(chǔ)知識,更巧妙地展示了機(jī)器學(xué)習(xí)如何在這一領(lǐng)域發(fā)揮巨
    發(fā)表于 08-12 11:21

    【《大語言模型應(yīng)用指南》閱讀體驗(yàn)】+ 基礎(chǔ)知識學(xué)習(xí)

    一些局限性。例如,模型可能無法完全理解文本中的深層含義和語境信息;同時,由于訓(xùn)練數(shù)據(jù)可能存在偏差和噪聲,生成的答案也可能存在不準(zhǔn)確或誤導(dǎo)性的情況。 總結(jié)以下,大語言
    發(fā)表于 08-02 11:03

    【《大語言模型應(yīng)用指南》閱讀體驗(yàn)】+ 基礎(chǔ)篇

    章節(jié)介紹了機(jī)器學(xué)習(xí),從方法論上來看,機(jī)器學(xué)習(xí)屬于歸納推理;從開發(fā)設(shè)計(jì)方式來看,機(jī)器學(xué)習(xí)屬于自動編
    發(fā)表于 07-25 14:33

    【《大語言模型應(yīng)用指南》閱讀體驗(yàn)】+ 俯瞰全書

    上周收到《大語言模型應(yīng)用指南》一書,非常高興,但工作項(xiàng)目繁忙,今天才品鑒體驗(yàn),感謝作者編寫了一部內(nèi)容豐富、理論應(yīng)用相結(jié)合、印刷精美的著作,也感謝電子發(fā)燒友論壇提供了一個讓我了解大語言模型機(jī)器
    發(fā)表于 07-21 13:35