1.大模型時代,數(shù)據(jù)安全的新挑戰(zhàn)
數(shù)據(jù),是AI發(fā)展的養(yǎng)料。人們在輕而易舉獲取數(shù)據(jù)的同時,對數(shù)據(jù)安全的討論也此起彼伏。
2013年,線上辭典Dictionary.com將“Privacy(隱私)”選為當年的年度詞匯。彼時美國政府棱鏡計劃被曝光、谷歌修改隱私協(xié)議以整合旗下各服務用戶數(shù)據(jù),個人隱私成為數(shù)據(jù)安全中關(guān)注度最高、涉及人群最廣的方面。
相較于互聯(lián)網(wǎng)對用戶上網(wǎng)習慣、消費記錄等信息的覆蓋,人臉識別、智能設(shè)備、AI換臉等AI應用的出現(xiàn),對用戶個人信息的采集范圍大幅擴大,包括人臉、指紋、聲紋、虹膜、心跳、基因等強個人屬性的生物特征信息。
2017年,中國第一例利用AI侵犯公民個人信息案犯罪在浙江紹興破獲,其中超10億條公民個人信息被非法獲取。
360集團首席安全官杜躍進此前接受「甲子光年」采訪時就曾表示:“人工智能和大數(shù)據(jù)的安全必須放在一起看?!?/p>
生成式AI、大模型的出現(xiàn),對數(shù)據(jù)提出了前所未有的要求,也隨之帶來了更加突出的數(shù)據(jù)安全問題。
在大模型的訓練數(shù)據(jù)量上,以O(shè)penAI的GPT模型為例:GPT-1預訓練數(shù)據(jù)量僅為5GB;到了GPT-2,數(shù)據(jù)量已經(jīng)增加至40GB;而GPT-3的數(shù)據(jù)量已經(jīng)直接飛升至45TB(相當于GPT-2數(shù)據(jù)量的1152倍)。
市場逐漸凝成這樣的共識:得數(shù)據(jù)者得天下,數(shù)據(jù)是大模型競爭的關(guān)鍵。
頂象安全專家告訴「甲子光年」:“模型需要數(shù)據(jù)來訓練。數(shù)據(jù)除了自己采集,就是爬蟲爬取。爬取的數(shù)據(jù)大部分沒有經(jīng)過數(shù)據(jù)所有者允許,可以說大部分是非授權(quán)的盜用。”
2022年11月,OpenAI和GitHub一起推出的代碼助手Copilot就曾被程序員們告上法庭。原告?zhèn)冋J為,Copilot在未獲得GitHub用戶授權(quán)的情況下,使用了公共存儲庫進行訓練。
在今年6月,OpenAI同樣因為未經(jīng)允許使用個人隱私數(shù)據(jù)收到了一份長達157頁的訴訟書。
除了模型的訓練階段,在模型的實際應用階段中,個人隱私泄露的風險持續(xù)存在。
頂象安全專家告訴「甲子光年」,生成式AI不僅僅泄露人的隱私和秘密,甚至會讓人變得透明?!熬透度w》中的智子一樣,提問者說的話會被記錄下來,生產(chǎn)生活產(chǎn)生的數(shù)據(jù)信息會成為AIGC訓練的素材?!?/p>
早在2020年,人們就發(fā)現(xiàn)OpenAI的GPT-2會透露訓練數(shù)據(jù)中的個人信息。隨后的調(diào)查發(fā)現(xiàn),語言模型越大,隱私信息泄露的概率也越高。
今年3月,多名ChatGPT用戶在自己的歷史對話中看到了他人的對話記錄,包括用戶姓名、電子郵件地址、付款地址、信用卡號后四位以及信用卡有效期。
不到一個月之后,三星電子就因員工使用ChatGPT,被迫面臨三起數(shù)據(jù)泄露事故:其半導體設(shè)備測量、良品/缺陷率、內(nèi)部會議內(nèi)容等相關(guān)信息被上傳到了ChatGPT的服務器中。隨后,三星立即禁止員工在公司設(shè)備及內(nèi)網(wǎng)上使用類ChatGPT的聊天機器人,同樣禁用的公司還包括蘋果、亞馬遜、高盛等世界500強公司。
觀韜中茂律師事務所發(fā)布的《生成式AI發(fā)展與監(jiān)管白皮書(三)》解釋了大模型在應用上的特殊性。大模型與人之間的交互,不同于一般應用程序中填入式的收集個人信息方式,所以對于個人信息的披露也不同于往常意義上的“公開披露”,更類似于一種“被動公開”,即當某個用戶的真實個人信息被摘錄在語料庫后,之后任意用戶通過詢問等方式均可以得知相關(guān)個人信息。
這意味著,在大模型時代,不僅個人信息泄露的范圍擴大了,個人信息的采集過程也變得更為隱秘,難以辨認,而且一旦侵權(quán),就是對大量用戶造成的侵權(quán)。那么,泄露之后的個人信息去向了哪里?究竟會對用戶造成什么影響?
北京植德律師事務所合伙人王藝告訴了「甲子光年」答案。他表示,生成式AI造成的個人信息泄露,輕則可能侵害他人的肖像權(quán),為造謠者實施便利,重則可能被犯罪分子利用,實施犯罪。
頂象的安全專家也表示,在所有互聯(lián)網(wǎng)產(chǎn)品或軟件都有可能被植入AI元素的當下,AI濫用帶來的社會問題會越來越多?!霸旒贂唵?,眼見不一定為實,電信詐騙、網(wǎng)絡(luò)詐騙越來越復雜?!?/p>
2023年5月,安全技術(shù)公司邁克菲對來自七個國家的7054人進行了調(diào)查,發(fā)現(xiàn)有四分之一的成年人經(jīng)歷過某種形式的AI語音詐騙(10%發(fā)生在自己身上,15%發(fā)生在他們認識的人身上),10%的受害者因此造成經(jīng)濟損失。
「甲子光年」從慧科數(shù)據(jù)庫、公開報道中發(fā)現(xiàn),今年以來全國各地發(fā)現(xiàn)利用AI技術(shù)竊取個人隱私進行詐騙的案例至少有14例。
其中,大多數(shù)案例通過視頻聊天與受害者進行聯(lián)系,逼真的人臉和聲音容易讓人們放下警惕,冒充朋友、親人也迅速讓受害者交與信任。詐騙金額多在萬元以上,最高被詐騙金額甚至高達430萬元。
數(shù)據(jù)來源:慧科新聞數(shù)據(jù)庫,綜合媒體報道
除此之外,通過“AI換臉”造成肖像權(quán)被侵犯的案件也屢見不鮮。王藝表示,雖然此類案件的數(shù)量在逐步上升,但由于隱蔽性強,且是微型侵權(quán),很多案例都沒有走上法庭,即使進行了法院審判,得到的賠償金額也并不高。
可以說,普通人在面對利用AI技術(shù)進行的個人隱私侵權(quán)面前,其實并沒有太多的辦法。
2.嚴苛的立法態(tài)度不是監(jiān)管的唯一解法
技術(shù)發(fā)展與法律監(jiān)管總是并駕齊驅(qū)的。如果說數(shù)據(jù)安全已經(jīng)成為人工智能時代的必答題,法律與監(jiān)管便是解答的關(guān)鍵。
今年4月,斯坦福大學以人為本人工智能研究所(Stanford HAI)發(fā)布了《2023年人工智能指數(shù)報告》(Artificial Intelligence Index Report 2023)報告。通過對127個國家的立法記錄調(diào)研,報告顯示,包含“人工智能”法案通過的數(shù)量,從2016年的1個增長到2022年的37個。在對81個國家涉及人工智能的議會記錄進行分析后,研究人員發(fā)現(xiàn)全球立法程序中提及人工智能的次數(shù)自2016年以來增加了近6.5倍。
區(qū)別于信息剽竊、隱私侵犯等“老生常談”的數(shù)據(jù)安全問題,由于涉及到人與AI的交互,大模型時代數(shù)據(jù)安全面臨著更為迫切的難題——個人信息權(quán)利響應難以落實。
如何精準識別交互過程中收集的個人信息?如何劃清用戶服務與模型訓練的使用界限?面對全新的數(shù)據(jù)安全、個人信息安全、網(wǎng)絡(luò)安全難題,大模型時代亟須新的監(jiān)管辦法出臺。
在監(jiān)管和發(fā)展平衡中,此次條例的修改不無道理。因為立法監(jiān)管并非是一蹴而就的,過于嚴苛的立法態(tài)度可能會成為技術(shù)發(fā)展的掣肘。在歐洲,部分技術(shù)從業(yè)者就該問題表達了擔憂。
ChatGPT推出后,歐洲國家對OpenAI的監(jiān)管逐步加緊。意大利宣布禁用ChatGPT后,出于數(shù)據(jù)保護的考慮,德國、法國、西班牙等國家也表示正在考慮對AI聊天機器人采取更嚴格的監(jiān)管。
6月14日,歐盟通過的《人工智能法案》最新草案,也貫徹了以往嚴苛的立法態(tài)度。法案對于“基礎(chǔ)模型”或經(jīng)過大量數(shù)據(jù)訓練的強大AI系統(tǒng),明確規(guī)定了透明度和風險評估要求,包括在AI技術(shù)投入日常使用之前進行風險評估等。
對風險的猜想是否高于實際?歐盟嚴苛的立法態(tài)度招致了歐洲風投公司和科技公司的許多不滿。
6月30日,歐洲各地的主要科技公司創(chuàng)始人、首席執(zhí)行官、風險投資家等150家企業(yè)高管共同簽署了一封致歐盟委員會的公開信,警告歐盟法律草案中對人工智能的過度監(jiān)管。
“想要將生成式人工智能的監(jiān)管納入法律并以嚴格的合規(guī)邏輯進行,這種方法是官僚主義的,因為它無法有效地實現(xiàn)其目的。在我們對真正的風險、商業(yè)模式或生成人工智能的應用知之甚少的情況下,歐洲法律應該僅限于以基于風險的方法闡述廣泛的原則?!惫_信中指出,該立法草案將危及歐洲的競爭力和技術(shù)主權(quán),而無法有效解決我們現(xiàn)在和未來可能要面臨的挑戰(zhàn)。
無獨有偶,日本一名官員此前也表示,日本更傾向于采用比歐盟更寬松的規(guī)則來管理AI,因為日本希望利用該技術(shù)促進經(jīng)濟增長,并使其成為先進芯片的領(lǐng)導者。
“一項新技術(shù)從研發(fā)到進入市場,再到融入社會生產(chǎn)、生活,產(chǎn)生風險是難以避免的,不能因為風險而放棄新技術(shù)的研發(fā)和應用。理想目標應是把風險最小化,把技術(shù)獲利最大化。”頂象的安全專家告訴「甲子光年」。
上述受訪者繼續(xù)說道,歐盟在規(guī)范AI問題上下手早,但其過度監(jiān)管也限制了相關(guān)市場的發(fā)展,造成歐盟數(shù)字產(chǎn)業(yè)的發(fā)展速度落后于全球。在全球技術(shù)主權(quán)激烈競爭的背景下,立法與監(jiān)管政策需要保持謹慎思考,在治理與發(fā)展之間做好平衡,在方便企業(yè)抵御AI倫理風險的同時,為企業(yè)、行業(yè)以及相關(guān)產(chǎn)業(yè)提供充分的發(fā)展空間。
“不發(fā)展是最大的不安全。”嚴苛的立法態(tài)度不是監(jiān)管政策的唯一解法,企業(yè)和立法者也不應該是矛盾雙方,而是謀求數(shù)據(jù)安全與技術(shù)發(fā)展的同路人。
以美國為例,谷歌、微軟、OpenAI等科技巨頭也在主動構(gòu)建安全屏障。7月21日,谷歌、微軟、OpenAI、Meta在內(nèi)的7家AI公司參與白宮峰會,并就AI技術(shù)和研發(fā)的安全、透明、風險等問題作出“八大承諾”。7月26日,微軟、谷歌、OpenAI、Anthropic四家AI科技巨頭宣布成立行業(yè)組織——“前沿模型論壇”(Frontier Model Forum),來確保前沿AI開發(fā)的安全和負責。
面對尚未確定的技術(shù)生態(tài),技術(shù)開發(fā)者、服務提供者都面臨著潛在的合規(guī)風險。只有明確了合法獲取的路徑和規(guī)章底線,大模型訓練者、服務提供者才能放下戒備,在更大的空間施展拳腳。
站在技術(shù)變革的十字路口,如何平衡好數(shù)據(jù)安全與技術(shù)發(fā)展的需求,制定出更為系統(tǒng)、更具針對性的監(jiān)管細則,也是對各國立法者的新考驗。
3.在創(chuàng)新與安全之間,如何平衡?
“監(jiān)管,如果不向前邁進,就會面臨人工智能被濫用的風險;如果倉促行事,就有導致行業(yè)陷入困境的危機?!?/p>
7月25日,Anthropic聯(lián)合創(chuàng)始人兼CEO Dario Amodei、加州大學伯克利分校教授Stuart Russell和蒙特利爾大學教授Yoshua Bengio出席美國參議院司法委員會舉行的人工智能聽證會。在會議上,他們一致達成這樣的觀點:AI需要監(jiān)管,但過猶不及。
面對大模型對隱私數(shù)據(jù)的挑戰(zhàn),在創(chuàng)新與安全的博弈之間,我們還有哪些解法?
加強數(shù)據(jù)安全保護可能是最容易想到的答案。360集團首席安全官杜躍進此前接受「甲子光年」采訪時曾表示:“數(shù)據(jù)安全不應該關(guān)注采集了什么,而應該關(guān)注采集的數(shù)據(jù)是怎么用的,怎么保護的?!?/p>
隱私計算成為近些年數(shù)據(jù)隱私保護的技術(shù)最優(yōu)解。與傳統(tǒng)的加密技術(shù)相比,隱私計算可以在不泄露原始數(shù)據(jù)的前提下對數(shù)據(jù)進行分析計算,實現(xiàn)數(shù)據(jù)的共享、互通、計算和建模。
讓數(shù)據(jù)變得“可用不可見”,也就規(guī)避了個人數(shù)據(jù)泄露或不當使用的風險。這項技術(shù)目前已經(jīng)在醫(yī)療、金融、政府等對數(shù)據(jù)高度敏感的領(lǐng)域內(nèi)相繼落地。
在大模型時代,隱私計算也同樣適用。中國信通院云計算與大數(shù)據(jù)研究所副主任閆樹在7月的兩次活動上都表達了這樣的觀點,隱私計算可以滿足大模型預測階段的隱私保護需求。
具體來說,隱私計算的不同路線,包括可信執(zhí)行環(huán)境(TEE) 、多方安全計算(MPC)等都可以與大模型進行結(jié)合,“比如在云端部署TEE ,用戶在推理時將輸入數(shù)據(jù)加密傳輸至云端,在其內(nèi)部解密然后進行推理;還有在模型推理階段使用多方安全計算來提升隱私保護能力”。但值得注意的是,隱私計算也不可避免會對模型訓練和推理的性能造成影響。
除了加強數(shù)據(jù)安全保護之外,還有一種可以從數(shù)據(jù)源頭上解決隱私安全問題的方法——合成數(shù)據(jù)。
合成數(shù)據(jù)指通過AI技術(shù)和算法模型,基于真實數(shù)據(jù)樣本生成虛擬數(shù)據(jù),因此也不存在用戶的個人隱私信息。
隨著大模型的火熱,合成數(shù)據(jù)也越來越受到關(guān)注,保護隱私就是合成數(shù)據(jù)研究背后強有力的驅(qū)動力之一。
“合成數(shù)據(jù)解決了三個挑戰(zhàn)——質(zhì)量、數(shù)量和隱私?!焙铣蓴?shù)據(jù)平臺Synthesis AI的創(chuàng)始人兼CEO Yashar Behzadi接受科技媒體《VentureBeat》采訪時表示:“通過使用合成數(shù)據(jù),公司可以明確定義所需要的訓練數(shù)據(jù)集,可以在最大程度上減少數(shù)據(jù)偏差并確保包容性,不會侵犯用戶的隱私。”
OpenAI聯(lián)合創(chuàng)始人兼CEO Sam Altman同樣也看好合成數(shù)據(jù)。
根據(jù)英國《金融時報》報道,5月在倫敦舉行的一次活動上,Sam Altman被問及是否擔心監(jiān)管部門對ChatGPT潛在隱私侵犯的調(diào)查,他并沒有特別在意,而是認為“非常有信心所有的數(shù)據(jù)很快會成為合成數(shù)據(jù)”。
在合成數(shù)據(jù)方面,微軟在今年更是動作頻頻。5月,微軟在論文《TinyStories: How Small Can Language Models Be and Still Speak Coherent English?》中描述了一個由GPT-4生成的短篇小說合成數(shù)據(jù)集TinyStories,其中只包含了四歲兒童可以理解的單詞,用它來訓練簡單的大語言模型,也能夠生成出流暢且語法正確的故事。
6月,微軟在發(fā)布的論文《Textbooks Are All You Need》中論證,AI可以使用合成的Python代碼進行訓練,并且這些代碼在編程任務上表現(xiàn)得相當不錯。
在AI的圈子內(nèi),通過合成數(shù)據(jù)進行大模型的訓練早已見怪不怪。全球IT研究與咨詢機構(gòu)Gartner預測,2030年,合成數(shù)據(jù)的體量將遠超真實數(shù)據(jù),成為AI研究的主要數(shù)據(jù)來源。
在技術(shù)之外,數(shù)據(jù)市場也在漸漸明朗。北京植德律師事務所合伙人王藝向「甲子光年」介紹,目前已經(jīng)有數(shù)據(jù)交易所建立了語料庫專區(qū),并為相關(guān)語料數(shù)據(jù)產(chǎn)品掛牌(包括文本、音頻、圖像等多模態(tài),覆蓋金融、交通運輸和醫(yī)療等領(lǐng)域),方便技術(shù)提供者和服務提供者合作采購。
在王藝看來,大模型數(shù)據(jù)的合法合規(guī),需要生成式AI服務提供者首先做好數(shù)據(jù)分類分級,區(qū)分不同數(shù)據(jù)類型,如個人數(shù)據(jù)、商業(yè)數(shù)據(jù)、重要數(shù)據(jù)等,并根據(jù)這些不同數(shù)據(jù)的使用方式,找到對應的法律,分別開展數(shù)據(jù)來源合法性的審查工作。
而在監(jiān)管方面,為了平衡好數(shù)據(jù)安全和AI的發(fā)展,王藝表示,對AI的監(jiān)管需要有主次之分:重點在應用層的監(jiān)管,尤其是內(nèi)容監(jiān)管和個人信息安全;其次是基礎(chǔ)層和模型層的監(jiān)管,對于相關(guān)深度合成算法要督促其及時完成備案;再次是要關(guān)注技術(shù)本身的主體是否涉及境外,可能會存在數(shù)據(jù)出境、出口管制等問題。
每一次技術(shù)產(chǎn)生變革的時期,期待和恐懼總是如影隨形,發(fā)展和監(jiān)管的呼聲向來不相上下。
目前大模型的發(fā)展還在早期,應用層的爆發(fā)尚未實現(xiàn),但AI不會停下腳步,如何把控前行的方向,如何平衡安全與創(chuàng)新,或許是AI發(fā)展歷程中持續(xù)伴隨的命題。
審核編輯:劉清
評論