一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

如何解決AI應(yīng)用歧視特定人群的問題?

mK5P_AItists ? 來源:未知 ? 作者:胡薇 ? 2018-08-15 15:53 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

當(dāng)使用谷歌翻譯將西班牙語的新聞翻譯為英語時(shí),涉及到女性的短語通常都會(huì)翻譯為“他說”或“他寫道”。常用于處理和分析大量自然語言數(shù)據(jù)的詞嵌入(Word Embedding)算法通常會(huì)將歐美名字預(yù)測為令人愉快的人物形象,而將非裔美國人名預(yù)測為令人不愉快的人物形象。

這些只是AI應(yīng)用歧視特定人群中的一小部分案例,還有更多未被發(fā)現(xiàn)。

正如很多學(xué)者所指出的,偏頗決策并非AI獨(dú)有,但隨著AI的影響范圍逐漸擴(kuò)大,使得這個(gè)問題的解決變得尤為重要。實(shí)際上,偏見問題的普遍性意味著我們需要系統(tǒng)的解決方案,下文我們列出了幾種可能的策略。

有偏數(shù)據(jù)

無論是在學(xué)術(shù)界還是工業(yè)界,從發(fā)行的出版物和媒體等公開刊物和報(bào)道來看,計(jì)算機(jī)科學(xué)家們均傾向于通過訓(xùn)練更加復(fù)雜的算法而獲得榮譽(yù),而對(duì)于數(shù)據(jù)收集、數(shù)據(jù)處理和數(shù)據(jù)組織相對(duì)關(guān)注較少。

AI產(chǎn)生偏差的主要原因在于訓(xùn)練數(shù)據(jù)。大部分機(jī)器學(xué)習(xí)任務(wù)都基于大規(guī)模的、帶標(biāo)注的數(shù)據(jù)集進(jìn)行訓(xùn)練。例如,針對(duì)圖片分類的深度神經(jīng)網(wǎng)絡(luò)通?;贗mageNet進(jìn)行訓(xùn)練,而ImageNet上有著超過1400萬張的標(biāo)注圖像集。

在自然語言處理中,標(biāo)準(zhǔn)算法一般基于具有數(shù)十億個(gè)單詞的語料庫進(jìn)行訓(xùn)練。研究人員通常使用特定查詢關(guān)鍵詞通過爬取類似谷歌圖像、谷歌新聞等網(wǎng)頁來搜集數(shù)據(jù),或者通過整合例如維基百科等比較容易獲取的數(shù)據(jù)源上的信息來構(gòu)建數(shù)據(jù)集。

這些數(shù)據(jù)集后續(xù)通常由研究生或眾包平臺(tái),如亞馬遜眾包平臺(tái)(Amazon Mechanical Turk)進(jìn)行標(biāo)注處理。這些處理方法可能會(huì)無意識(shí)地讓數(shù)據(jù)產(chǎn)生性別、種族和文化偏見。通常來說,數(shù)據(jù)中包含的某些群體占比較高,而另一些群體則占比較少。ImageNet作為推動(dòng)計(jì)算機(jī)視覺研究的訓(xùn)練數(shù)據(jù)源,其中超過45% 的數(shù)據(jù)來源于美國用戶,而這些數(shù)據(jù)提供者僅占全世界人口的 4%。

相比之下,中國和印度用戶總共貢獻(xiàn)了 3% 的數(shù)據(jù),而這些國家的人口占據(jù)了全世界人口的36% 。這種地理多樣性的缺乏從某種情況下解釋了為何計(jì)算機(jī)視覺算法會(huì)將一張美國傳統(tǒng)新娘的照片標(biāo)記為“新娘”、“禮服”、“女人”、“婚禮”,而將另一張北印度新娘的照片則標(biāo)記為“表演藝術(shù)”和“服裝”。

在醫(yī)學(xué)領(lǐng)域,機(jī)器學(xué)習(xí)預(yù)測器可能特別容易受到有偏數(shù)據(jù)集的影響,因?yàn)獒t(yī)學(xué)數(shù)據(jù)的生產(chǎn)和標(biāo)注成本非常高。去年,研究人員使用深度學(xué)習(xí)從照片中識(shí)別皮膚癌。

他們?cè)?29,450張圖片集上進(jìn)行模型訓(xùn)練,其中60% 的圖片來源于從谷歌圖片。但是其中有不到5%的圖片是屬于深色皮膚人群的,并且該算法并未在深色皮膚人群上進(jìn)行過測試。因此這個(gè)分類器對(duì)不同人群的性能可能會(huì)有顯著變化。

造成偏差的另一個(gè)原因是算法本身。

典型的機(jī)器學(xué)習(xí)程序會(huì)嘗試最大化訓(xùn)練數(shù)據(jù)的整體預(yù)測準(zhǔn)確性。如果訓(xùn)練數(shù)據(jù)中一組特定群體的出現(xiàn)頻率明顯超過其他群體,則程序?qū)?huì)針對(duì)此類群體的數(shù)據(jù)進(jìn)行優(yōu)化來提供整體準(zhǔn)確率。一般計(jì)算機(jī)科學(xué)家基于“測試數(shù)據(jù)集”進(jìn)行算法評(píng)估,但測試集通常是原始訓(xùn)練集的隨機(jī)子樣本,所以也有可能存在同樣的偏差。

有缺陷的算法可以通過循環(huán)反饋放大偏差。想象一下根據(jù)統(tǒng)計(jì)學(xué)訓(xùn)練的系統(tǒng),例如谷歌翻譯,其默認(rèn)使用的是男性代名詞。這種模式是由英語語料庫中男性與女性代名詞比例2:1的情況造成的。更糟的是,每一次翻譯程序默認(rèn)翻譯為“他說”,都會(huì)增加相應(yīng)男性代名詞出現(xiàn)在網(wǎng)頁上的幾率——這可能會(huì)潛在地影響來之不易數(shù)據(jù)糾偏進(jìn)展。

得益于大規(guī)模的社會(huì)變革,才使得男女代名詞的比例從20世紀(jì)60年代的4:1下降到現(xiàn)在的2:1。

平衡傾斜

數(shù)據(jù)中的偏差常常會(huì)反映出制度建設(shè)和社會(huì)權(quán)利關(guān)系的深層次和隱性失衡。以維基百科為例,它似乎是一個(gè)豐富多樣的數(shù)據(jù)源。但是該網(wǎng)站的傳記條目中只有不到18%是關(guān)于女性的。從女性文章鏈接到男性文章的次數(shù)遠(yuǎn)大于反過來鏈接的次數(shù),這使得男性更容易被搜索引擎獲取到。男性還更多的被浪漫伴侶和家庭的相關(guān)文章所提及。

因此,建立訓(xùn)練數(shù)據(jù)集時(shí)必須注意算法調(diào)優(yōu)情況和社會(huì)意識(shí)行為。具體而言,應(yīng)該采取措施來確保數(shù)據(jù)集具有多樣性,并且不代表特定群體。

這意味著不能再采用簡單的分類——“男/女”、“黑/白”等等——這些分類很難表達(dá)性別和種族身份的復(fù)雜性。一些學(xué)者已經(jīng)開始對(duì)此展開工作。計(jì)算機(jī)科學(xué)家最近發(fā)現(xiàn),商業(yè)面部識(shí)別系統(tǒng)在識(shí)別膚色較深的女性相比膚色較淺的男性會(huì)更容易產(chǎn)生性別分類錯(cuò)誤,錯(cuò)誤率分別為35%和0.8%。

為解決這個(gè)問題,研究人員重新構(gòu)建了一個(gè)由1,270個(gè)人組成的新的圖像數(shù)據(jù)集,來均衡性別和種族比例。使用這些數(shù)據(jù)重新訓(xùn)練和微調(diào)后的面部分類算法應(yīng)該可以提高其準(zhǔn)確性。為了幫助確定偏差來源,我們建議注釋者使用標(biāo)準(zhǔn)化元數(shù)據(jù)對(duì)訓(xùn)練數(shù)據(jù)集的內(nèi)容進(jìn)行系統(tǒng)化的標(biāo)注。一些研究小組已經(jīng)在設(shè)計(jì)包含機(jī)器學(xué)習(xí)數(shù)據(jù)集的元數(shù)據(jù)和“有效標(biāo)簽”的“數(shù)據(jù)表”。

含機(jī)器學(xué)習(xí)數(shù)據(jù)集的元數(shù)據(jù)和“營養(yǎng)標(biāo)

每個(gè)訓(xùn)練數(shù)據(jù)集都應(yīng)有相關(guān)信息來說明該數(shù)據(jù)集是如何收集以及是如何對(duì)數(shù)據(jù)進(jìn)行注釋的。如果數(shù)據(jù)包含有關(guān)人員的信息,則應(yīng)提供有關(guān)地理、性別、種族和其他人口統(tǒng)計(jì)信息的摘要。如果數(shù)據(jù)標(biāo)簽是通過眾包完成的,那么應(yīng)該包括有關(guān)人群參與者的基本信息,以及他們給出的確切請(qǐng)求或指示。

數(shù)據(jù)管理者應(yīng)盡可能提供與數(shù)據(jù)相關(guān)的準(zhǔn)確描述。例如,在刑事司法數(shù)據(jù)的例子中,了解模型訓(xùn)練過哪些“犯罪”類型數(shù)據(jù)有助于應(yīng)用和解釋該模型。

內(nèi)置修復(fù)程序

許多期刊已經(jīng)要求作者提供類似的實(shí)驗(yàn)數(shù)據(jù)信息作為出版的先決條件。例如,Nature要求作者將所有微陣列數(shù)據(jù)上傳到開放存取庫Gene Expression Omnibus——這就有需要作者提交實(shí)驗(yàn)協(xié)議的元數(shù)據(jù)。我們鼓勵(lì)像國際機(jī)器學(xué)習(xí)會(huì)議這樣的會(huì)議組織者去提出類似的要求,將標(biāo)準(zhǔn)化的元數(shù)據(jù)作為最終提交和同行評(píng)審過程的重要組成部分。數(shù)據(jù)存儲(chǔ)庫的主機(jī)(例如OpenML)和AI競爭平臺(tái)(例如Kaggle)也應(yīng)該這樣做。

最重要的是,計(jì)算機(jī)科學(xué)家應(yīng)該努力開發(fā)更加完善的算法來消除數(shù)據(jù)中存在的人的偏見。目前研究者正在探尋各種方法來解決數(shù)據(jù)偏差的問題,其中之一是納入約束,本質(zhì)上就是推動(dòng)機(jī)器學(xué)習(xí)模型,以確保它在不同的子群體和類似的個(gè)體之間實(shí)現(xiàn)公平的算法。一種相關(guān)的方法是改變學(xué)習(xí)算法,以減少其對(duì)敏感屬性如種族、性別和收入等以及與這些特征相關(guān)的信息的依賴。

這種新產(chǎn)生的去除偏差的方法很有潛力,但需要通過實(shí)踐的檢驗(yàn)與完善。

然而,不可回避的問題是,種族、性別和其他相關(guān)信息是需要被準(zhǔn)確記錄的。除非有很好的實(shí)例,否則很難知道應(yīng)該對(duì)模型施加哪些約束或更正。相關(guān)方法也要求算法設(shè)計(jì)者可以先驗(yàn)地確定他們想要避免哪些類型的偏差。一種互補(bǔ)的方法是使用機(jī)器學(xué)習(xí)本身來識(shí)別和量化算法和數(shù)據(jù)中的偏差。 我們稱之為進(jìn)行AI審計(jì),其中審計(jì)員是一種系統(tǒng)地探測原始機(jī)器學(xué)習(xí)模型,以識(shí)別模型和訓(xùn)練數(shù)據(jù)中的偏差的算法。

以我們最近工作中使用的一種流行的機(jī)器學(xué)習(xí)方法——詞嵌入為例,來量化美國的歷史成見。詞嵌入將每個(gè)英語單詞映射到空間中的點(diǎn)(幾何向量),這樣向量之間的距離就能捕獲對(duì)應(yīng)單詞之間的語義相似性。它捕捉了類比關(guān)系,例如'man'是'king','woman'是'queen'。我們開發(fā)了一種算法——AI審計(jì)員,來查詢其他性別類比的嵌入。這表明“man”是“doctor”,而“woman”是“nurse”;“man”是“computer programmer”,而“woman”是“homemaker”“。

一旦審核員在單詞嵌入和原始文本數(shù)據(jù)中揭示了歷史成見,就可以通過修改單詞向量的位置來減少偏差。此外,通過評(píng)估成見的演變過程,對(duì)歷史文本進(jìn)行訓(xùn)練的算法可能會(huì)有消除偏差的作用。例如,從1910年到1990年,谷歌圖書每十年的美國文本數(shù)據(jù)嵌入一次,就會(huì)發(fā)現(xiàn)這期間美國人對(duì)亞裔的態(tài)度令人非常震驚且變化無常。1910年,美國人對(duì)亞裔的描述為“怪異”和“野蠻”。

到1990年,在第二次世界大戰(zhàn)后和20世紀(jì)80年代的移民浪潮時(shí)期,美國人的態(tài)度發(fā)生了巨大轉(zhuǎn)變,又用“抑制”和“敏感”來描述亞裔。

根源性方法

計(jì)算機(jī)科學(xué)家、倫理學(xué)家、社會(huì)科學(xué)家和其他許多人都在努力提高數(shù)據(jù)和AI的公平性,我們也是時(shí)候考慮一下何為公平了。

數(shù)據(jù)展現(xiàn)了這個(gè)世界的本來面貌,還是被塑造成人們想要它成為的樣子?同樣,一個(gè)人工智能工具是否應(yīng)該用來評(píng)估一份工作的候選人,以及這個(gè)人是否能很好地融入工作環(huán)境? 誰又應(yīng)該決定優(yōu)先考慮哪種公平觀念?

為了解決這些問題并評(píng)估訓(xùn)練數(shù)據(jù)和算法的更廣泛影響,機(jī)器學(xué)習(xí)研究人員必須與社會(huì)科學(xué)家以及人文、性別、醫(yī)學(xué)、環(huán)境和法律等方面的專家進(jìn)行交流。當(dāng)前,正在努力促進(jìn)這種合作,包括我們?cè)诩又菟固垢4髮W(xué)參加的“以人為本的AI”計(jì)劃。這種參與必須從本科階段開始,這個(gè)階段的學(xué)生不僅要了解算法的工作原理,同時(shí)還要研究AI的社會(huì)背景。

設(shè)備、程序和流程塑造了我們的態(tài)度、行為和文化。AI正在改變經(jīng)濟(jì)和社會(huì),改變我們溝通和工作的方式,重塑治理模式和政治環(huán)境。我們的社會(huì)長期忍受著不平等,AI絕不能與此沆瀣一氣。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • AI
    AI
    +關(guān)注

    關(guān)注

    88

    文章

    35109

    瀏覽量

    279586
  • 機(jī)器學(xué)習(xí)

    關(guān)注

    66

    文章

    8502

    瀏覽量

    134589

原文標(biāo)題:Nature:AI為什么總是歧視重重?

文章出處:【微信號(hào):AItists,微信公眾號(hào):人工智能學(xué)家】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    基于STM32 人群定位、調(diào)速智能風(fēng)扇設(shè)計(jì)(程序、設(shè)計(jì)報(bào)告、視頻演示)

    基于STM32 人群定位、調(diào)速智能風(fēng)扇設(shè)計(jì)(程序、設(shè)計(jì)報(bào)告、視頻演示),有需要的同學(xué)推薦下載!
    發(fā)表于 05-28 21:34

    基于STM32 人群定位、調(diào)速智能風(fēng)扇設(shè)計(jì)(程序、設(shè)計(jì)報(bào)告、視頻演示)

    基于STM32 人群定位、調(diào)速智能風(fēng)扇設(shè)計(jì)(程序、設(shè)計(jì)報(bào)告、視頻演示)項(xiàng)目下載! 純分享帖,需要者可點(diǎn)擊附件免費(fèi)獲取完整資料~~~【免責(zé)聲明】本文系網(wǎng)絡(luò)轉(zhuǎn)載,版權(quán)歸原作者所有。本文所用視頻、圖片、文字如涉及作品版權(quán)問題,請(qǐng)第一時(shí)間告知,刪除內(nèi)容!
    發(fā)表于 05-23 20:35

    海思SD3403邊緣計(jì)算AI數(shù)據(jù)訓(xùn)練概述

    AI數(shù)據(jù)訓(xùn)練:基于用戶特定應(yīng)用場景,用戶采集照片或視頻,通過AI數(shù)據(jù)訓(xùn)練工程師**(用戶公司****員工)** ,進(jìn)行特征標(biāo)定后,將標(biāo)定好的訓(xùn)練樣本,通過AI訓(xùn)練服務(wù)器,進(jìn)行
    發(fā)表于 04-28 11:11

    Arm關(guān)鍵洞察 芯片新思維 奠定人工智能時(shí)代新根基

    哪些策略轉(zhuǎn)變及投資? 為了解決科技企業(yè)的疑慮,Arm 近日發(fā)布《芯片新思維:奠定人工智能時(shí)代新根基》報(bào)告,針對(duì)當(dāng)前關(guān)鍵的行業(yè)轉(zhuǎn)變提供了重要見解,并全面分析了半導(dǎo)體行業(yè)正如何不斷發(fā)展,以滿足 AI 的巨大算力需求,同時(shí)解決能效、安全性
    的頭像 發(fā)表于 03-14 15:58 ?544次閱讀

    AIGC和AI有什么區(qū)別

    AIGC是AI在內(nèi)容生成領(lǐng)域的一個(gè)特定應(yīng)用方向,AI的技術(shù)發(fā)展為AIGC提供了基礎(chǔ)和支撐。那么,AIGC和AI有什么區(qū)別呢?下面,AI部落小
    的頭像 發(fā)表于 02-20 10:33 ?829次閱讀

    AI如何破解蛇毒密碼

    AI 驅(qū)動(dòng)的醫(yī)學(xué)有望為世界上最易受影響的人群帶來救及時(shí)的蛇咬傷治療。
    的頭像 發(fā)表于 02-20 09:30 ?482次閱讀

    當(dāng)我問DeepSeek AI爆發(fā)時(shí)代的FPGA是否重要?答案是......

    ,開發(fā)人員可以根據(jù)具體應(yīng)用需求重新配置硬件邏輯。這種靈活性使得FPGA能夠適應(yīng)不斷變化的AI算法和應(yīng)用場景,而無需更換硬件。 ? 定制化加速:FPGA可以根據(jù)特定AI任務(wù)進(jìn)行優(yōu)化配置,減少不必要的計(jì)算
    發(fā)表于 02-19 13:55

    NVIDIA RTX AI PC如何解AI智能體

    生成式 AI 改變了人們將創(chuàng)意變?yōu)楝F(xiàn)實(shí)的方式。代理式 AI 進(jìn)一步推進(jìn)了這一進(jìn)程 — 利用復(fù)雜的自主因果推理和迭代式規(guī)劃來幫助解決復(fù)雜的多步驟問題。
    的頭像 發(fā)表于 01-18 10:10 ?604次閱讀
    NVIDIA RTX <b class='flag-5'>AI</b> PC如<b class='flag-5'>何解</b>鎖<b class='flag-5'>AI</b>智能體

    ADS6445存在特定噪聲干擾如何解決?

    一般在-110dB,但是在130KHz,140KHz,以及240KHz附近均存在-85dB的 較大噪聲。請(qǐng)問如何解決?
    發(fā)表于 12-30 07:02

    Samtec AI漫談 | 人工智能領(lǐng)域特定架構(gòu)

    特定領(lǐng)域架構(gòu)是一種設(shè)計(jì)理念 特定領(lǐng)域架構(gòu)是一種設(shè)計(jì)理念,可讓計(jì)算機(jī)在特定任務(wù)中發(fā)揮高性能。復(fù)雜的設(shè)備很少能同時(shí)勝任多項(xiàng)任務(wù)。設(shè)計(jì)一款新產(chǎn)品通常需要考慮優(yōu)先級(jí),仔細(xì)平衡各種功能,以獲得最佳的整體效果
    發(fā)表于 11-27 14:04 ?656次閱讀
    Samtec <b class='flag-5'>AI</b>漫談 | 人工智能領(lǐng)域<b class='flag-5'>特定</b>架構(gòu)

    哪些特定用途需要特定類型的網(wǎng)線?

    不同特定用途確實(shí)需要不同類型的網(wǎng)線,以滿足其對(duì)網(wǎng)絡(luò)速度、穩(wěn)定性、傳輸距離等方面的不同要求。以下是一些特定用途與所需網(wǎng)線類型的對(duì)應(yīng)關(guān)系: 1. 家庭和小型辦公室網(wǎng)絡(luò) 需求:對(duì)于家庭和小型辦公室而言
    的頭像 發(fā)表于 10-14 10:14 ?890次閱讀

    何解決熱插拔時(shí)的電壓過沖

    電子發(fā)燒友網(wǎng)站提供《如何解決熱插拔時(shí)的電壓過沖.pdf》資料免費(fèi)下載
    發(fā)表于 09-06 11:34 ?0次下載
    如<b class='flag-5'>何解</b>決熱插拔時(shí)的電壓過沖

    何解決工字電感噪音大的問題

    電子發(fā)燒友網(wǎng)站提供《如何解決工字電感噪音大的問題.docx》資料免費(fèi)下載
    發(fā)表于 09-04 11:46 ?0次下載

    何解決電感的漏感問題

    電子發(fā)燒友網(wǎng)站提供《如何解決電感的漏感問題.docx》資料免費(fèi)下載
    發(fā)表于 09-02 14:48 ?0次下載

    平衡創(chuàng)新與倫理:AI時(shí)代的隱私保護(hù)和算法公平

    在人工智能技術(shù)飛速發(fā)展的今天,它不僅帶來了前所未有的便利和效率,也暴露出了一系列倫理和隱私問題。從數(shù)據(jù)隱私侵犯到“信息繭房”的形成,再到“大數(shù)據(jù)殺熟”、AI歧視和深度偽造技術(shù)的威脅,AI的應(yīng)用似乎
    發(fā)表于 07-16 15:07