如果說人工智能是未來的“電力”,那么數(shù)據(jù)就是發(fā)電的“燃料”。在面向未來技術(shù)升級(jí)的過程中,那些擁有大量數(shù)據(jù)的組織有機(jī)會(huì)最早利用這些“燃料”來發(fā)“電”。這其中,世界知識(shí)產(chǎn)權(quán)組織(WIPO)在使用人工智能技術(shù)方面的實(shí)踐可以作為有價(jià)值的案例之一。
WIPO是聯(lián)合國(guó)領(lǐng)導(dǎo)的發(fā)展國(guó)際知識(shí)產(chǎn)權(quán)制度的專門機(jī)構(gòu),是由191個(gè)成員國(guó)組成的關(guān)于知識(shí)產(chǎn)權(quán)服務(wù)、政策、合作與信息的全球論壇。WIPO的專利合作條約(PCT)是一個(gè)國(guó)際專利體系,方便申請(qǐng)人在國(guó)際上尋求對(duì)其發(fā)明的國(guó)際專利保護(hù),幫助專利局出專利授權(quán)決定。通過PCT提交國(guó)際專利申請(qǐng),申請(qǐng)人可以同時(shí)在全世界大多數(shù)國(guó)家尋求對(duì)其發(fā)明的保護(hù)。WIPO的特性決定了其在專利領(lǐng)域擁有海量的專業(yè)數(shù)據(jù)。隨著全球知識(shí)產(chǎn)權(quán)申請(qǐng)數(shù)量不斷增加,相關(guān)數(shù)據(jù)的數(shù)量增長(zhǎng)使得不使用AI工具采集和分析數(shù)據(jù)變得幾乎不可能。
截至2017年2月,PCT已經(jīng)授權(quán)了300萬件國(guó)際專利。由于在WIPO的專利申請(qǐng)數(shù)據(jù)庫中,大約只有三分之一的文件為英文,因此在國(guó)際專利保護(hù)領(lǐng)域,涉及到大量專利申請(qǐng)文件的翻譯工作。
對(duì)于像WIPO這樣的非技術(shù)性組織來說,如何進(jìn)一步運(yùn)用自身積累的大量數(shù)據(jù)資源?如何使用新技術(shù)減少巨大、枯燥并且重復(fù)性人工勞動(dòng)的工作量?有沒有可能通過技術(shù)手段,幫助工作人員提高專利、商標(biāo)等知識(shí)產(chǎn)權(quán)方面的審查工作?在這一波人工智能的熱潮來臨之前,WIPO早在2010年就已經(jīng)開始進(jìn)行人工智能技術(shù)在專利領(lǐng)域方面的應(yīng)用探索。
WIPO在知識(shí)產(chǎn)權(quán)領(lǐng)域開發(fā)和應(yīng)用人工智能方面一直處于領(lǐng)先地位。2010年,WIPO全球數(shù)據(jù)庫部門的Christophe MAZENC招聘到了人工智能應(yīng)用開發(fā)的第一位員工。兩人開始了WIPO機(jī)器翻譯工具的開發(fā)工作,兩年以后,WIPO有了第一個(gè)版本的機(jī)器翻譯工具。到今天,這個(gè)團(tuán)隊(duì)發(fā)展成為先進(jìn)技術(shù)應(yīng)用中心(ATAC),第一位AI開發(fā)者Bruno Pouliquen也已經(jīng)成為部門負(fù)責(zé)人,管理著5人的團(tuán)隊(duì)。
ATAC作為WIPO內(nèi)部的AI技術(shù)開發(fā)部門,負(fù)責(zé)自下而上的規(guī)劃WIPO的AI應(yīng)用開發(fā)路線,工作之一是掃描各部門所擁有的數(shù)據(jù),分析在這些數(shù)據(jù)的基礎(chǔ)上可以開發(fā)出怎樣的應(yīng)用;另一方面,ATAC與WIPO各成員國(guó)的知識(shí)產(chǎn)權(quán)局保持溝通,交換數(shù)據(jù),跟蹤成員國(guó)知識(shí)產(chǎn)權(quán)局的人工智能應(yīng)用進(jìn)展。
WIPO采用內(nèi)部開發(fā)而非外包的方式,自己開發(fā)了基于神經(jīng)網(wǎng)絡(luò)的機(jī)器學(xué)習(xí)翻譯工具WIPO Translate。 與早期的工具相比,WIPO Translate對(duì)專利文件的翻譯更加自然,尤其是像英文和中文這樣差別很大的語言。與市面上通用的翻譯工具使用更廣泛的文檔進(jìn)行訓(xùn)練不同,WIPO Translate完全依靠知識(shí)產(chǎn)權(quán)相關(guān)文檔進(jìn)行訓(xùn)練。
因此WIPO的翻譯工具在全球?qū)@g領(lǐng)域處于領(lǐng)先地位。在WIPO內(nèi)部的專利數(shù)據(jù)中用中文、日文和韓文這三種語言撰寫的專利占全世界專利申請(qǐng)量的一半以上。通過翻譯軟件幫助工作人員理解專利的內(nèi)容,可以減少WIPO對(duì)外包翻譯公司的依賴,同時(shí)提高內(nèi)部職員的工作效率。為了評(píng)估WIPO機(jī)器翻譯工具的翻譯質(zhì)量,研究人員使用了一個(gè)名為 Bleu 的程序,由 AI 專家來評(píng)估機(jī)器翻譯系統(tǒng)。
結(jié)果表明,在專利文獻(xiàn)翻譯領(lǐng)域,WIPO的表現(xiàn)優(yōu)于我們常用的 Google 翻譯。
2010年開始做機(jī)器翻譯項(xiàng)目的只是兩個(gè)人的微型團(tuán)隊(duì)。發(fā)展到今天也僅是五個(gè)人的小團(tuán)隊(duì)。WIPO總干事弗朗西斯?高銳(Francis Gurry)認(rèn)為,一方面專利可以幫助發(fā)明人保護(hù)和促進(jìn)他們的發(fā)明,另一方面還披露了其他人可能用來開發(fā)新創(chuàng)新的重要細(xì)節(jié)。WIPO Translate工具有助于在全球傳播這種知識(shí)。
微型技術(shù)團(tuán)隊(duì)的細(xì)分領(lǐng)域探索
任何的機(jī)器學(xué)習(xí)技術(shù),都需要經(jīng)過合適的訓(xùn)練數(shù)據(jù)集的“訓(xùn)練”才能產(chǎn)生作用。因此,ATAC需要找到足夠的訓(xùn)練數(shù)據(jù),才能在此基礎(chǔ)上開發(fā)。這個(gè)小型開發(fā)團(tuán)隊(duì)決定在擁有高質(zhì)量數(shù)據(jù)、最新數(shù)據(jù)的領(lǐng)域做開發(fā)。
ATAC是如何為算法找到大量訓(xùn)練數(shù)據(jù)集的?與谷歌翻譯所不同的是,WIPO沒有海量的互聯(lián)網(wǎng)數(shù)據(jù)做“燃料”。但Bruno認(rèn)為,一個(gè)高質(zhì)量數(shù)據(jù)訓(xùn)練集比一個(gè)更大的數(shù)據(jù)訓(xùn)練集更好。而且,使用最新的數(shù)據(jù)比更多的數(shù)據(jù)更重要。
在專利領(lǐng)域,使用最新的術(shù)語能夠訓(xùn)練出更好的模型。ATAC使用高質(zhì)量數(shù)據(jù)的辦法是這樣的,他們找出曾經(jīng)在美國(guó)和中國(guó)都申請(qǐng)過的中文專利,從中國(guó)專利局和美國(guó)專利局獲得同一個(gè)專利文件,用這些經(jīng)過官方認(rèn)證的翻譯文件來訓(xùn)練機(jī)器學(xué)習(xí)算法。在中英翻譯方面,ATAC將中國(guó)國(guó)家知識(shí)產(chǎn)權(quán)局提供的共計(jì) 6000 萬句中文,與由專業(yè)人員翻譯并提交給美國(guó)專利局的英文版進(jìn)行對(duì)比“學(xué)習(xí)”。
另一方面,ATAC使用開源技術(shù)進(jìn)行開發(fā)。Bruno認(rèn)為對(duì)于突破性技術(shù),通常開源技術(shù)會(huì)更先進(jìn)。在機(jī)器翻譯領(lǐng)域,有非常好的開源圖書館,WIPO的技術(shù)開發(fā)人員基于開源的資源的基礎(chǔ)上,結(jié)合對(duì)業(yè)務(wù)的理解,開發(fā)出對(duì)自己的業(yè)務(wù)有實(shí)際幫助的AI工具。
內(nèi)部開發(fā)的優(yōu)勢(shì)是可以從內(nèi)部的角度,對(duì)業(yè)務(wù)熟悉,項(xiàng)目開發(fā)人員能夠更好的將業(yè)務(wù)需求和產(chǎn)品開發(fā)精準(zhǔn)的結(jié)合起來,在技術(shù)開發(fā)團(tuán)隊(duì)里既有技術(shù)人員也有業(yè)務(wù)人員,由于工程師本身知道業(yè)務(wù)是怎么運(yùn)作的,可以將自己當(dāng)做工具的“用戶”,因此不需要翻譯和解釋別人的需求。
利用開源軟件的另一方面的好處是,項(xiàng)目完成后,WIPO完全擁有這項(xiàng)技術(shù),并且可以將這項(xiàng)技術(shù)與其他組織機(jī)構(gòu)分享。目前,WIPO已經(jīng)授權(quán)韓國(guó)特許廳(KIPO)使用,為對(duì)方提供了工具并且?guī)椭鷮?duì)方進(jìn)行知識(shí)轉(zhuǎn)移。除了聯(lián)合國(guó)以外,國(guó)際電信聯(lián)盟(ITU)、國(guó)際貨幣基金組織(IMF)、國(guó)際原子能機(jī)構(gòu)(IAEA)等聯(lián)合國(guó)專門機(jī)構(gòu)都對(duì)WIPO的機(jī)器翻譯工具表示出興趣。
使用開源技術(shù)的另一個(gè)原因是,WIPO掌握的專利信息不便于與第三方分享,從知識(shí)產(chǎn)權(quán)保護(hù)的角度,開源技術(shù)可以避免相關(guān)的知識(shí)產(chǎn)權(quán)泄露。
雖然是內(nèi)部開發(fā),但Bruno的團(tuán)隊(duì)還會(huì)借助“外腦”使自己能夠掌握最新技術(shù)。ATAC與學(xué)術(shù)界有很多合作,與學(xué)術(shù)界建立了良好的溝通網(wǎng)絡(luò),以此了解和掌握相關(guān)領(lǐng)域最前沿的技術(shù)。通過閱讀科學(xué)期刊上的最新論文、參加國(guó)際學(xué)術(shù)界會(huì)議等方式來保持對(duì)自信技術(shù)的追蹤。因?yàn)橥ǔW(xué)術(shù)界的技術(shù)開發(fā)都是開源的。ATAC通過對(duì)學(xué)術(shù)界最新研究的跟蹤與學(xué)習(xí)來保持技術(shù)的領(lǐng)先性。
高銳稱,WIPO目前正在尋找知識(shí)產(chǎn)權(quán)領(lǐng)域中其他可以應(yīng)用機(jī)器學(xué)習(xí)技術(shù)的業(yè)務(wù)場(chǎng)景。衡量的標(biāo)準(zhǔn)包括:是否能夠解決當(dāng)前或者未來WIPO和成員國(guó)基于知識(shí)產(chǎn)權(quán)的大數(shù)據(jù)(如專利信息)的業(yè)務(wù)需求;可用訓(xùn)練數(shù)據(jù)的數(shù)量和質(zhì)量等。高銳認(rèn)為,重要的不是人工智能本身,而是知識(shí)產(chǎn)權(quán)(IP)管理部門和公眾如何通過充分利用人工智能來提高知識(shí)產(chǎn)權(quán)服務(wù)質(zhì)量并創(chuàng)造新知識(shí)。在將AI技術(shù)應(yīng)用到知識(shí)產(chǎn)權(quán)管理領(lǐng)域中,WIPO與各成員國(guó)及各國(guó)知識(shí)產(chǎn)權(quán)局的協(xié)調(diào)合作非常重要。
2018年5月,WIPO在與其成員國(guó)在關(guān)于AI應(yīng)用的咨詢會(huì)議上確定了以下領(lǐng)域作為AI應(yīng)用的最有希望和優(yōu)先的領(lǐng)域:(1)機(jī)器翻譯和其他自然語言處理技術(shù);(2)專利自動(dòng)分類和商標(biāo)申請(qǐng)商品/服務(wù)自動(dòng)分類;(3)商標(biāo)和專利審查及形式審查;(4)幫助臺(tái)服務(wù)(自動(dòng)回復(fù)客戶端);(5)專利現(xiàn)有技術(shù)檢索和商標(biāo)圖形要素檢索。
目前,除了機(jī)器翻譯應(yīng)用,WIPO與學(xué)術(shù)界進(jìn)一步的技術(shù)合作進(jìn)行專利自動(dòng)分類的應(yīng)用開發(fā)。在WIPO工作人員接觸的專利里,有一些是沒有根據(jù)國(guó)際專利分類(IPC)來分類的,如果采用機(jī)器學(xué)習(xí)的方法自動(dòng)通過文檔本身的內(nèi)容來判斷出專利應(yīng)該被分到哪個(gè)類別里將極大的提高分類效率。除了WIPO,在世界各地的知識(shí)產(chǎn)權(quán)局,也在商標(biāo)圖形檢索、商標(biāo)審查、專利現(xiàn)有技術(shù)檢索與分析、服務(wù)聊天機(jī)器人等人工智能領(lǐng)域有許多AI技術(shù)的嘗試性應(yīng)用。
對(duì)其他組織轉(zhuǎn)型的建議
什么樣的組織有條件進(jìn)行人工智能方面的嘗試?Bruno認(rèn)為,組織需要滿足兩方面條件,(1)有足夠的應(yīng)用數(shù)據(jù),(2)有AI應(yīng)用場(chǎng)景。WIPO對(duì)于應(yīng)用AI的建議是自下而上的開發(fā),審視組織內(nèi)部擁有什么樣的數(shù)據(jù),在這個(gè)基礎(chǔ)上分析可以開發(fā)哪些應(yīng)用。正所謂巧婦難為無米之炊,在Bruno看來,AI是一個(gè)機(jī)器學(xué)習(xí)的過程,需要很多數(shù)據(jù)來訓(xùn)練神經(jīng)網(wǎng)絡(luò)。分析組織有什么樣的數(shù)據(jù),在數(shù)據(jù)的基礎(chǔ)上分析可以開發(fā)什么樣的應(yīng)用是更符合邏輯的。
如果沒有適當(dāng)?shù)摹芭嘤?xùn)”數(shù)據(jù),則不是每一項(xiàng)業(yè)務(wù)需求都能通過機(jī)器學(xué)習(xí)實(shí)現(xiàn)。因此WIPO的一個(gè)最佳實(shí)踐就是:首先在啟動(dòng)開發(fā)之前確定數(shù)據(jù)的可用性、質(zhì)量和數(shù)量,然后遵循高科技領(lǐng)域里的慣常做法:快速建立模型,迭代開發(fā)。
WIPO僅使用開放源代碼庫,因?yàn)樵谶@樣的尖端領(lǐng)域,通常最先進(jìn)的是開源的。 此外,開源可以根據(jù)自己的需要客戶化定制/調(diào)整軟件,然后與其他公益組織共享軟件。
WIPO在使用AI開發(fā)的邏輯,給了非AI技術(shù)類組織一些有益的啟示。WIPO的經(jīng)歷證明,對(duì)于已經(jīng)有了海量訓(xùn)練數(shù)據(jù)集的組織,內(nèi)部建立起應(yīng)用開源框架開發(fā)的小型技術(shù)團(tuán)隊(duì),利用組織對(duì)業(yè)務(wù)模式和用戶使用需求的深刻理解,經(jīng)過海量的數(shù)據(jù)訓(xùn)練,是一條走得通的轉(zhuǎn)型路線。
-
人工智能
+關(guān)注
關(guān)注
1807文章
49029瀏覽量
249564 -
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8503瀏覽量
134629 -
ai技術(shù)
+關(guān)注
關(guān)注
1文章
1308瀏覽量
25160
原文標(biāo)題:世界知識(shí)產(chǎn)權(quán)組織的人工智能轉(zhuǎn)型探索
文章出處:【微信號(hào):robot-1hjqr,微信公眾號(hào):1號(hào)機(jī)器人網(wǎng)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
芯盾時(shí)代入選《中國(guó)網(wǎng)絡(luò)安全細(xì)分領(lǐng)域產(chǎn)品名錄》 零信任領(lǐng)域排名第一

國(guó)家戰(zhàn)略下的細(xì)分市場(chǎng)領(lǐng)域新材料機(jī)會(huì)

什么是微型光譜儀?基礎(chǔ)原理與應(yīng)用領(lǐng)域解析

LITESTAR 4D應(yīng)用:室內(nèi)植物照明模擬
SMT技術(shù):電子產(chǎn)品微型化的推動(dòng)者

寧德時(shí)代自研機(jī)器人團(tuán)隊(duì)成立,探索多元科技領(lǐng)域
字節(jié)豆包大模型團(tuán)隊(duì)成立AGI長(zhǎng)期研究團(tuán)隊(duì)Seed Edge
芯盾時(shí)代榮登17項(xiàng)細(xì)分領(lǐng)域榜單
微型壓力傳感器的工作原理與應(yīng)用領(lǐng)域

減速電機(jī)概述了解多少?
芯盾時(shí)代再次入選《嘶吼2024網(wǎng)絡(luò)安全產(chǎn)業(yè)圖譜》
蘋果積極探索為Apple Watch SE引入塑料表殼的可能性
OpenAI正深入探索文本水印技術(shù)的前沿領(lǐng)域
萬里紅入選《嘶吼2024網(wǎng)絡(luò)安全產(chǎn)業(yè)圖譜》8個(gè)細(xì)分領(lǐng)域

評(píng)論