不知道大家有沒(méi)有注意到,許多機(jī)器學(xué)習(xí)算法很容易受到幾乎不可察覺(jué)的輸入干擾的影響。到目前為止,我們還不清楚這種對(duì)抗干擾將為現(xiàn)實(shí)世界中機(jī)器學(xué)習(xí)應(yīng)用的安全性帶來(lái)多大的風(fēng)險(xiǎn),因?yàn)橛糜谏蛇@種干擾的大多數(shù)方法要么依賴于詳細(xì)的模型信息(基于梯度的攻擊)或者置信度分?jǐn)?shù),例如類概率(基于分?jǐn)?shù)的攻擊),而這兩種在大多數(shù)現(xiàn)實(shí)世界中都是不可用的。在許多這樣的情況下,目前我們需要后退到基于遷移的攻擊中,其中它依靠繁瑣的替代模型,需要訪問(wèn)訓(xùn)練數(shù)據(jù),并可以被防御。在這里,我們強(qiáng)調(diào)了純粹依靠最終模型決策的攻擊的重要性。這種基于決策的攻擊是(1)適用于真實(shí)世界的黑盒模型,如自動(dòng)駕駛汽車;(2)需要較少的知識(shí),比基于遷移的攻擊更容易應(yīng)用;(3)相較于基于梯度或基于分?jǐn)?shù)的攻擊,它對(duì)于簡(jiǎn)單的防御具有更強(qiáng)健的魯棒性。以往的攻擊只限于簡(jiǎn)單的模型或簡(jiǎn)單的數(shù)據(jù)集。而在本文中,我們引入邊界攻擊(Boundary Attack)——一種基于決策的攻擊,它從一個(gè)大的對(duì)抗性干擾開始,然后力求在保持對(duì)抗的同時(shí)減少干擾。這種攻擊在概念上是很簡(jiǎn)單的,要求接近沒(méi)有超參數(shù)的調(diào)整,并且在像ImageNet這樣的標(biāo)準(zhǔn)計(jì)算機(jī)視覺(jué)任務(wù)中,可以與最好的基于梯度的攻擊相媲美。我們將這個(gè)攻擊應(yīng)用于Clarifai.com中的兩個(gè)黑盒算法。特別是邊界攻擊以及基于決策的類攻擊,為研究機(jī)器學(xué)習(xí)模型的魯棒性開辟了新的途徑,并提出了關(guān)于部署機(jī)器學(xué)習(xí)系統(tǒng)安全性的新問(wèn)題。這個(gè)攻擊的實(shí)現(xiàn)可以作為Foolbox的一部分。
圖1 :(左)對(duì)抗攻擊方法的分類。邊界攻擊適用于現(xiàn)實(shí)世界中機(jī)器學(xué)習(xí)算法,因?yàn)樗恍枰L問(wèn)模型的最終決策(例如類標(biāo)簽或轉(zhuǎn)錄句子),而不依賴于模型的信息,如梯度或置信度分?jǐn)?shù)。(右)應(yīng)用于Clarifai品牌識(shí)別模型的案例。
一般說(shuō)來(lái),應(yīng)用于計(jì)算機(jī)視覺(jué)、語(yǔ)音識(shí)別和其他領(lǐng)域中的許多高性能機(jī)器學(xué)習(xí)算法易受到其輸入的微小變化的影響(Szegedy等人于2013年提出)。我們可以舉一個(gè)具體的例子來(lái)說(shuō)明這一點(diǎn),比如像VGG-19這樣一個(gè)在目標(biāo)識(shí)別中訓(xùn)練的先進(jìn)的深度神經(jīng)網(wǎng)絡(luò)可以將圖像中的主要目標(biāo)準(zhǔn)確地識(shí)別為虎貓(tiger cat),但是如果以某種特定的方式對(duì)像素值進(jìn)行輕微的干擾,那么同一網(wǎng)絡(luò)的預(yù)測(cè)結(jié)果將會(huì)徹底改變(比如將其識(shí)別為公交車)。這些所謂的對(duì)抗性干擾在許多機(jī)器學(xué)習(xí)模型中是普遍存在的,而且往往不被人類所感知。一般情況下,我們將力求找到這種對(duì)抗性干擾的算法稱之為為對(duì)抗性攻擊。
這種對(duì)抗性干擾引起了人們對(duì)于兩個(gè)方面的關(guān)注。一方面,他們擔(dān)心已部署的機(jī)器學(xué)習(xí)算法的完整性和安全性,比如自動(dòng)駕駛汽車或人臉識(shí)別系統(tǒng)。路牌上(例如,將停車標(biāo)志變成200公里/小時(shí)的速度限制)或路燈上(例如,將紅燈變成綠燈)的微小干擾可能造成嚴(yán)重的后果;另一方面,對(duì)抗性干擾為人類和機(jī)器的感官信息處理之間的差距提供了一種關(guān)注焦點(diǎn),并因此為更具魯棒性、更加人性化的體系架構(gòu)提供了指導(dǎo)。
對(duì)抗攻擊大致可以分為三類:基于梯度的、基于分?jǐn)?shù)的和基于遷移的攻擊(參見(jiàn)圖1)?;谔荻鹊墓艉突诜?jǐn)?shù)的攻擊通常被分別表示為白盒攻擊和oracle攻擊,但我們?cè)噲D盡可能地明確在每個(gè)類別中所使用的信息。影響所有這些類別的攻擊的一個(gè)嚴(yán)重問(wèn)題是,它們直截了當(dāng)?shù)剡M(jìn)行防御:
?基于梯度的攻擊:大多數(shù)現(xiàn)有的攻擊都依賴于詳細(xì)的模型信息,包括輸入的損失的梯度。
防御:防御基于梯度的攻擊的一種簡(jiǎn)單方法是對(duì)梯度進(jìn)行掩碼操作,例如通過(guò)隱式地增加不可微的元素,比如防御性精煉或飽和的非線性,再或者通過(guò)明確地添加不可微的分類器。
?基于分?jǐn)?shù)的攻擊:一些攻擊更加不可知,只依賴于模型的預(yù)測(cè)分?jǐn)?shù)(例如類概率或邏輯)。
防御:通過(guò)在模型中加入像dropout這樣的隨機(jī)元素,從而可以直接嚴(yán)重阻礙對(duì)數(shù)值梯度的估計(jì)。此外,許多魯棒的訓(xùn)練方法在樣本周圍引入了一個(gè)極值點(diǎn),它們不僅對(duì)梯度本身進(jìn)行了掩碼,而且還對(duì)其數(shù)值估計(jì)進(jìn)行了掩碼。
?基于遷移的攻擊:基于遷移的攻擊并不依賴于模型信息,而是需要關(guān)于訓(xùn)練數(shù)據(jù)的信息。該數(shù)據(jù)用于訓(xùn)練一個(gè)完全可觀察的替代模型,而該模型可以合成對(duì)抗干擾。它們依賴于經(jīng)驗(yàn)觀察,即對(duì)抗樣本經(jīng)常在模型之間遷移。
防御:最近針對(duì)遷移攻擊的一種防御方法,是基于通過(guò)對(duì)由替代模型的對(duì)抗樣本增強(qiáng)的數(shù)據(jù)集進(jìn)行的健壯性訓(xùn)練,而它已經(jīng)證明,在2017年的Kaggle 對(duì)抗攻擊競(jìng)賽中,它幾乎可以成功防御所有攻擊(https://www.kaggle.com/c/nips-2017-defense-against-adversarial-attack)。
?基于決策的攻擊:直接攻擊,完全依賴于模型的最終決策(例如第一類標(biāo)簽或被轉(zhuǎn)錄的句子)。
這個(gè)劃分類別是合理的,原因如下:首先,相較于基于分?jǐn)?shù)的攻擊,基于決策的攻擊與真實(shí)世界的機(jī)器學(xué)習(xí)應(yīng)用程序關(guān)聯(lián)更大,其中,在這些應(yīng)用程序中,很難獲得置信度分?jǐn)?shù)或logit。與此同時(shí),相較于其他類別的攻擊,基于決策的攻擊有可能對(duì)標(biāo)準(zhǔn)防御(如梯度掩碼、固有隨機(jī)性或魯棒性訓(xùn)練)具有更穩(wěn)健的魯棒性。最后,與基于遷移的攻擊相比,它們所需要的模型(架構(gòu)和訓(xùn)練數(shù)據(jù))信息要少得多,而且要簡(jiǎn)單得多。
目前還沒(méi)有有效的基于決策的攻擊能夠擴(kuò)展到像ImageNet這樣的自然數(shù)據(jù)集中,且能夠適用于深度神經(jīng)網(wǎng)絡(luò)(DNN)。先前最相關(guān)的研究是遷移攻擊的一個(gè)變體,其中用于學(xué)習(xí)替代模型的訓(xùn)練集被替換為合成數(shù)據(jù)集。這個(gè)合成數(shù)據(jù)集是由攻擊者以及替代模型的訓(xùn)練生成的。每個(gè)合成樣本的標(biāo)簽都是從黑盒模型中抽取的。雖然這種方法可以很好地處理內(nèi)部類的可變性很低的數(shù)據(jù)集(比如MNIST),但是這并不表明它可以擴(kuò)展到諸如CIFAR或ImageNet這樣更為復(fù)雜的自然數(shù)據(jù)集中。其他基于決策的攻擊是特定于線性或凸誘導(dǎo)性(convex-inducing classifiers)分類器,并不適用于其他機(jī)器學(xué)習(xí)模型。Biggio等人于2013所進(jìn)行的研究基本上處于遷移攻擊和基于決策的攻擊之間,其中,替代模型是在從黑盒模型中觀察到的標(biāo)簽的數(shù)據(jù)集上進(jìn)行訓(xùn)練的。這種攻擊仍然需要關(guān)于黑盒模型訓(xùn)練的數(shù)據(jù)分布知識(shí),所以我們不認(rèn)為這是一個(gè)純粹的基于決策的攻擊。最后,一些樸素攻擊,比如沿著一個(gè)隨機(jī)方向偏離原始樣本的路線搜索,我們可以將其稱之為基于決策的攻擊,但它們引發(fā)了巨大的、非常明顯的干擾,而這些干擾要比典型的基于梯度的、基于分?jǐn)?shù)的或基于遷移的攻擊要大得多。
在整篇論文中,我們主要關(guān)注威脅情景,在這種情景下,攻擊者的目標(biāo)是通過(guò)對(duì)樣本產(chǎn)生最小干擾來(lái)改變特定輸入樣本的模型的決策(無(wú)論是有針對(duì)性還是無(wú)針對(duì)性)。攻擊者可以觀察模型對(duì)于任意輸入的最終決策,并且知道至少一個(gè)干擾,但是大的干擾樣本是對(duì)抗的。
本文的貢獻(xiàn)如下:
?我們強(qiáng)調(diào)基于決策的攻擊是與現(xiàn)實(shí)應(yīng)用高度相關(guān)的對(duì)抗攻擊的一個(gè)重要類別,對(duì)衡量模型的魯棒性非常重要。
?我們引入了第一個(gè)有效的基于決策的攻擊,可擴(kuò)展到復(fù)雜的機(jī)器學(xué)習(xí)模型和自然數(shù)據(jù)集。 邊界攻擊(1)在概念上非常簡(jiǎn)單,(2)極其靈活,(3)只需要很少的超參數(shù)調(diào)整,(4)在有針對(duì)性和無(wú)針對(duì)性計(jì)算機(jī)視覺(jué)場(chǎng)景中能夠與最好的基于梯度的攻擊相媲美。
?我們表明,邊界攻擊能夠打破以前建議的防御機(jī)制,如防御性精煉。
?我們?cè)贑larifai.com網(wǎng)站上展示了邊界攻擊在兩個(gè)黑盒機(jī)器學(xué)習(xí)模型上的實(shí)用性,用于品牌和名人識(shí)別。
由邊界攻擊生成的對(duì)抗樣本,三個(gè)案例分別基于MNIST、CIFAR、ImageNet。對(duì)于MNIST,差異顯示為正(藍(lán)色)和負(fù)(紅色)變化。對(duì)于CIFAR和ImageNet,我們采用顏色通道規(guī)范。所有差異都已被放大,以提高能見(jiàn)度。
無(wú)針對(duì)性攻擊的例子。這里的目標(biāo)是在錯(cuò)誤分類(原始圖像被正確分類)的同時(shí),合成與原始圖像盡可能接近的圖像。對(duì)于每個(gè)圖像,我們報(bào)告直到該點(diǎn)(圖像上方)的模型調(diào)用(預(yù)測(cè))的總數(shù)以及對(duì)抗及原始(圖像下方)之間的均方誤差。
在本文中,我們強(qiáng)調(diào)了一個(gè)大多數(shù)被忽視的對(duì)抗性攻擊類型的重要性——基于決策的攻擊, 可以在模型中找到對(duì)抗樣本,其中,只有最后的決策才能被觀察到。我們認(rèn)為,這個(gè)類型的重要性原因有三:首先,這個(gè)類型的攻擊與許多真實(shí)世界中部署的機(jī)器學(xué)習(xí)系統(tǒng)(如內(nèi)部決策過(guò)程是不可觀測(cè)的自動(dòng)駕駛汽車)高度相關(guān);其次,這個(gè)類別的攻擊不依賴于在被攻擊的模型上進(jìn)行相似的數(shù)據(jù)訓(xùn)練的替代模型,從而使實(shí)際的應(yīng)用更加直截了當(dāng)。第三,這個(gè)類別的攻擊有可能對(duì)諸如梯度掩碼,內(nèi)在隨機(jī)性或魯棒訓(xùn)練等常見(jiàn)欺騙行為具有更強(qiáng)的可靠性。
我們還引入了第一個(gè)適用于通用機(jī)器學(xué)習(xí)算法和復(fù)雜自然數(shù)據(jù)集的有效攻擊:邊界攻擊。 邊界攻擊的核心是遵循對(duì)抗和非對(duì)抗樣本之間的決策邊界,采用非常簡(jiǎn)單的拒絕抽樣算法(rejection sampling algorithm),結(jié)合簡(jiǎn)單的建議分布(proposal distribution)和信賴域方法(Trust Region methods)啟發(fā)的動(dòng)態(tài)步長(zhǎng)調(diào)整。其基本的工作原理——從一個(gè)大的干擾開始,并逐漸減少——基本上推翻了了所有以前對(duì)抗攻擊的邏輯。除了出奇的簡(jiǎn)單之外,邊界攻擊在可能的對(duì)抗標(biāo)準(zhǔn)方面也是非常靈活的,并且能夠在基于最小干擾大小的標(biāo)準(zhǔn)計(jì)算機(jī)視覺(jué)任務(wù)上與基于梯度的攻擊相提并論。
事實(shí)上,簡(jiǎn)單約束的獨(dú)立同分布的高斯分布可以作為邊界攻擊每一步的有效建議干擾是出乎意料的,并揭示了當(dāng)前計(jì)算機(jī)視覺(jué)體系結(jié)構(gòu)信息處理的脆弱性。盡管如此,邊界攻擊還有很多方法可以更加有效,特別是通過(guò)某個(gè)特定模型學(xué)習(xí)適當(dāng)?shù)慕ㄗh分布,或者通過(guò)對(duì)最近成功或失敗的建議歷史進(jìn)行調(diào)整建議分布。
基于決策的攻擊對(duì)于評(píng)估機(jī)器學(xué)習(xí)模型的魯棒性以及突出像自動(dòng)駕駛汽車這樣的閉源機(jī)器學(xué)習(xí)系統(tǒng)的安全風(fēng)險(xiǎn)具有高度的相關(guān)性。我們希望邊界攻擊能夠促進(jìn)在這一領(lǐng)域進(jìn)行更深入的研究。
-
神經(jīng)網(wǎng)絡(luò)
+關(guān)注
關(guān)注
42文章
4814瀏覽量
103486 -
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8501瀏覽量
134536
原文標(biāo)題:德國(guó)圖賓根大學(xué)發(fā)布可擴(kuò)展「對(duì)抗黑盒攻擊」,僅通過(guò)觀察決策即可愚弄深度神經(jīng)網(wǎng)絡(luò)
文章出處:【微信號(hào):AItists,微信公眾號(hào):人工智能學(xué)家】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
VoIP網(wǎng)絡(luò)邊界攻擊防護(hù)系統(tǒng)
對(duì)嵌入式系統(tǒng)的攻擊 攻擊者通過(guò)什么途徑得到ATM的密鑰呢?
物聯(lián)網(wǎng)開源工具Unik:用Unikernel提高連接安全性
SCDN的抗CC攻擊和抗DDoS攻擊防護(hù)是什么?
邊緣智能的邊緣節(jié)點(diǎn)安全性
針對(duì)非接觸式安全微控制器的攻擊方式及防范措施
嵌入式實(shí)時(shí)多任務(wù)操作系統(tǒng)的安全性怎么樣?
HarmonyOS學(xué)習(xí)之三:HarmonyOS 系統(tǒng)安全性
你的應(yīng)用程序如何保持安全性?
新唐對(duì)應(yīng)四大物聯(lián)網(wǎng)安全攻擊的保護(hù)措施
分形水印檢測(cè)邊界的抗Oracle攻擊安全性
雙重?cái)?shù)字水印的抗攻擊安全性分析
如何使用多線性分類器擬合實(shí)現(xiàn)攻擊模擬算法

機(jī)器學(xué)習(xí)和人工智能如何改善網(wǎng)絡(luò)安全性

評(píng)論