近期,來(lái)自艾倫人工智能研究所的研究人員對(duì)計(jì)算機(jī)領(lǐng)域中的性別問(wèn)題做了深入分析。實(shí)驗(yàn)表明,本世紀(jì)男性和女性作者數(shù)量將不會(huì)持平、不同性別作者之間協(xié)作率在下降。
性別平等問(wèn)題似乎一直是個(gè)熱議的話題,學(xué)術(shù)界也是如此。
去年8月,名稱一直飽受爭(zhēng)議的國(guó)際頂會(huì)NIPS,因在會(huì)議中遇到的性騷擾,再次將NIPS推上風(fēng)口浪尖。
同年11月17日,NIPS官網(wǎng)將會(huì)議名稱默默改為NeurIPS。至此,有關(guān)該頂會(huì)性別歧視、性別平等的問(wèn)題算是得到了相應(yīng)的解決。
而近期,一項(xiàng)來(lái)自艾倫人工智能研究所(Allen Institute for Artificial Intelligence)的論文對(duì)計(jì)算機(jī)領(lǐng)域中的性別問(wèn)題做了深入的分析與研究。
論文地址:
https://arxiv.org/pdf/1906.07883.pdf
這項(xiàng)研究對(duì)計(jì)算機(jī)領(lǐng)域近287萬(wàn)篇文獻(xiàn)(截至2018年)進(jìn)行了全面的分析,結(jié)果表明:
如果按照當(dāng)前的趨勢(shì)發(fā)展下去,本世紀(jì)男性和女性作者數(shù)量將不會(huì)持平;
若是按照較為樂(lè)觀的預(yù)測(cè)結(jié)果,性別平等預(yù)計(jì)將在2100年之前實(shí)現(xiàn);
對(duì)計(jì)算機(jī)科學(xué)協(xié)作趨勢(shì)進(jìn)行分析后表明,不同性別作者之間協(xié)作率在下降。
287萬(wàn)篇計(jì)算機(jī)論文做實(shí)驗(yàn)數(shù)據(jù)
研究人員所要試圖解決的問(wèn)題包括:
論文作者之間的性別平衡如何隨時(shí)間而變化?
論文作者的性別將在何時(shí)達(dá)到平衡狀態(tài)?
協(xié)同作者之間的性別存在怎樣的關(guān)系?
研究人員通過(guò)對(duì)計(jì)算機(jī)科學(xué)會(huì)議和期刊(287萬(wàn)篇論文)中的文獻(xiàn)原數(shù)據(jù)進(jìn)行自動(dòng)化研究,并利用Semantic Scholar學(xué)術(shù)搜索引擎中的數(shù)據(jù)來(lái)回答上述這些問(wèn)題。
數(shù)據(jù)統(tǒng)計(jì)如下所示:
表1Computer Science and Medline語(yǔ)料庫(kù)統(tǒng)計(jì)
作者列表從所有出版物中提取,并編譯成一個(gè)名字列表。研究人員使用Gender API為每個(gè)名稱執(zhí)行性別查找。對(duì)于每個(gè)名稱,Gender API輸出預(yù)測(cè)的二進(jìn)制性別(女性或男性),以及與預(yù)測(cè)相關(guān)的準(zhǔn)確性和用于確定的樣本數(shù)量。只有首字母可用的作者(少于語(yǔ)料庫(kù)中所有作者的0.5%)被排除在分析之外。
(性別應(yīng)用程序接口(Gender API)是一個(gè)大型的在線數(shù)據(jù)庫(kù),通過(guò)將各國(guó)公開(kāi)的政府?dāng)?shù)據(jù)與社交媒體資料鏈接起來(lái),可以獲得已知的姓名和性別關(guān)系。)
但此時(shí)卻存在一個(gè)問(wèn)題:很多名字都是性別模糊的。因此研究人員使用Gender API返回的準(zhǔn)確性來(lái)表示每個(gè)作者是男性和女性的復(fù)合。
例如,第一個(gè)名字Matthew被確定為男性,準(zhǔn)確率最高為100。這個(gè)結(jié)果是明確的。然而,Taylor這個(gè)名字被確定為女性的正確率僅為55分。
精度用于為每個(gè)名稱生成兩個(gè)概率(m, f),其中m為關(guān)聯(lián)作者為男性的概率,f為關(guān)聯(lián)作者為女性的概率,其中m + f = 1。在本例中,每個(gè)姓Matthew的作者將用概率元組(1.0,0.0)表示,每個(gè)姓Taylor的作者將用概率元組(0.45,0.55)表示。
本世紀(jì)男女性別平衡較為困難,女性協(xié)作者呈下降趨勢(shì)
通過(guò)實(shí)驗(yàn),計(jì)算機(jī)科學(xué)語(yǔ)料庫(kù)中的287萬(wàn)篇論文產(chǎn)生了824萬(wàn)個(gè) author-paper units。
作者的趨勢(shì)
圖1
如圖1所示,按照目前的增長(zhǎng)速度,女性作者的比例預(yù)計(jì)在2137年左右達(dá)到0.45(95%置信區(qū)間:[2109,2172])。
圖2
圖2顯示了一段時(shí)間內(nèi)女性和男性作者的數(shù)量。隨著時(shí)間的推移,作家的總數(shù)在增加,女性作家的比例也在增加。
圖3
圖3顯示了對(duì)均衡女性作者比例參數(shù)α的敏感性分析。該分析顯示了在每個(gè)均衡比例中首次達(dá)到平等的年份。
當(dāng)均衡比例被認(rèn)為有利于女性而非男性(高于0.5)時(shí),達(dá)到平衡的年份會(huì)更早。即使女性最終將占所有出版物的90%,但按照目前的增長(zhǎng)速度,預(yù)計(jì)到2100年左右將實(shí)現(xiàn)男女平等。
協(xié)作者趨勢(shì)
此處統(tǒng)計(jì)的是每年計(jì)算機(jī)科學(xué)中相同和不同性別的協(xié)作者人數(shù)。
圖4
圖4顯示了自1995年以來(lái)相同/不同性別協(xié)作者的額外和缺失的數(shù)量。在男性和女性中,相同性別的合作作者比預(yù)期的要多,而不同性別的合作作者比預(yù)期的要少。近年來(lái)(與預(yù)期數(shù)字相比),每年有超過(guò)2萬(wàn)個(gè)不同性別的合作項(xiàng)目消失。
通過(guò)分析觀察到的與預(yù)期的比率,協(xié)作者的趨勢(shì)還是較為悲觀的。
雖然男性和女性都更有可能與自己性別的作者合作,但在女性作者中,同性偏好的程度正在下降,而在男性作者中卻在上升。
與此同時(shí),不同性別之間的協(xié)作差距(O/E < 1.0)也在不斷擴(kuò)大。盡管近年來(lái)有更多的跨性別合作機(jī)會(huì)(由于在該領(lǐng)域工作的女性科學(xué)家的增加),但觀察到的跨性別合作的數(shù)量并沒(méi)有如預(yù)期的那樣增加。
與Medline的比較
Medline語(yǔ)料庫(kù)包括1163萬(wàn)篇論文,可以產(chǎn)生4766萬(wàn)個(gè)author-paper units。
圖5
圖5顯示了Medline語(yǔ)料庫(kù)中女性和男性作者的數(shù)量。
圖6
圖6顯示了使用ARIMA預(yù)測(cè)女性作者的預(yù)計(jì)比例。
2002年Medline語(yǔ)料庫(kù)數(shù)據(jù)中可以觀察到不連續(xù)性。這是由于Medline索引記錄中的完整作者姓名是從2002年才開(kāi)始要求的。
2002年這一比例的下降表明,Medline期刊沒(méi)有對(duì)作者使用全名,才造成了2002年以前女性作者比例高的假象。
工作總結(jié)
研究人員對(duì)計(jì)算機(jī)科學(xué)文獻(xiàn)(287萬(wàn)篇論文)進(jìn)行了全面分析,以評(píng)估作者之間的性別趨勢(shì)。
根據(jù)最近的趨勢(shì),預(yù)計(jì)計(jì)算機(jī)科學(xué)中女性作者的比例在本世紀(jì)不會(huì)達(dá)到平等,并且在更現(xiàn)實(shí)的假設(shè)下,可能需要更長(zhǎng)的時(shí)間。
研究人員還觀察到跨性別合作的數(shù)量低于預(yù)期,觀察到的預(yù)期比率隨著時(shí)間的推移而下降。
計(jì)算機(jī)科學(xué)領(lǐng)域女性科學(xué)家的比例增長(zhǎng)緩慢,這繼續(xù)對(duì)進(jìn)入該領(lǐng)域的女性構(gòu)成挑戰(zhàn)。并且女性科學(xué)家在尋找合作者方面可能比男性科學(xué)家面臨更多的挑戰(zhàn)。
研究人員希望,這些發(fā)現(xiàn)將激勵(lì)該領(lǐng)域的其他人評(píng)估他們與這些性別偏見(jiàn)的關(guān)系,并考慮改善現(xiàn)狀的方法。
-
計(jì)算機(jī)
+關(guān)注
關(guān)注
19文章
7662瀏覽量
90759 -
數(shù)據(jù)庫(kù)
+關(guān)注
關(guān)注
7文章
3926瀏覽量
66199 -
人工智能
+關(guān)注
關(guān)注
1806文章
49011瀏覽量
249347
原文標(biāo)題:287萬(wàn)篇CS文獻(xiàn)數(shù)據(jù)分析:性別差距100年難消除,男女搭配協(xié)作更累?
文章出處:【微信號(hào):AI_era,微信公眾號(hào):新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
系統(tǒng)日志在計(jì)算機(jī)取證中的研究和應(yīng)用
計(jì)算機(jī)圖形圖像處理最新應(yīng)用分析
美科學(xué)家建新設(shè)備將光束變固體 可用于研制量子計(jì)算機(jī)
量子計(jì)算機(jī)或?qū)⑻崆皩?shí)現(xiàn)
先進(jìn)SMT研究分析手段
計(jì)算機(jī)圖形學(xué)研究和應(yīng)用
基于嵌入式實(shí)時(shí)軟件在計(jì)算機(jī)中的應(yīng)用研究
研究人員提高了基于量子化學(xué)模擬的量子計(jì)算機(jī)性能基準(zhǔn)
研究人員最新展示了未來(lái)光晶體管的平臺(tái)
研究人員開(kāi)發(fā)了一種基于深度學(xué)習(xí)的智能算法
研究人員開(kāi)發(fā)了可以對(duì)機(jī)器人形狀進(jìn)行仿真的計(jì)算機(jī)系統(tǒng)
NVIDIA研究人員創(chuàng)建可以疏通計(jì)算機(jī)網(wǎng)絡(luò)擁堵的AI模型
人工智能在計(jì)算機(jī)視覺(jué)及網(wǎng)絡(luò)領(lǐng)域中的應(yīng)用
淺談深度學(xué)習(xí)在計(jì)算機(jī)視覺(jué)領(lǐng)域的三大瓶頸

評(píng)論