漫漫塵埃下,掩藏了許多曾經(jīng)輝煌燦爛古代文明,但我們現(xiàn)在卻無法清晰地知道,這些地方究竟發(fā)生了什么。
搞懂這些歷史的最佳方式,就是找到他們的文字記載。However,記載文字的石碑可以被考古學家們挖出來,但這些古文字究竟啥意思,現(xiàn)代的人們看不懂,需要語言學家們耗盡青春來推測。
現(xiàn)在,MIT CSAIL和谷歌大腦的研究者出手了,他們用機器學習破譯了烏加里特文和線性文字B。
△ 烏加里特王宮
烏加里特文,Ugaritic,是一種楔形文字,屬于閃米特語族。從字面上來看,就知道它是一個叫做烏加里特(Ugarit)的文明使用的語言,這個文明位于當今地中海沿岸的敘利亞,在公元前6000年前后就初現(xiàn)蹤跡,在公元前1190年前后滅亡。
△ 烏加里特文
線性文字B,Linear B,由一種人類還沒有破譯出來的線性文字A演化而來,主要存活于公元前1500年到公元前1200年的克里特島和希臘南部,是希臘語的一種古代書寫形式。
△ 線性文字B
研究者們利用同一語族內(nèi)不同語言之間的聯(lián)系,用機器學習的方法來破譯這兩種失傳的語言,這是破譯古代語言的新方法,也將對羅曼語族的語言學研究有巨大的影響和提升。
這個方法讓許多人驚嘆:
簡直是現(xiàn)代版的羅塞塔石碑!
PS,羅塞塔石碑是一塊用3種語言寫了同一個內(nèi)容的石碑,幫助語言學家們讀懂古文字。
希望能先把動物和植物的語言破譯了,可以發(fā)現(xiàn)打開新世界的大門。
人類語言總相通
這項研究的核心方法,是借助人類語言的相似性。
比如,知乎用戶@拉隊短 在介紹歐洲語言相似性的時候,舉了這么個栗子:
句子“那是六月末潮濕陰沉的一個夏日?!?/p>
英語:It was a humid, grey summer day at the end of June.
丹麥語:Det var en fugtig, gr? sommerdag i slutningen af juni.
瑞典語:Det var en fuktig, gr? sommardag i slutet av juni.
挪威語:Det var en fuktig, gr? sommerdag i slutten av juni.
冰島語:Tae var rakur, grár sumardagur í lok júní.
看,長得差不多嘛,畢竟同屬印歐語系日耳曼語族,單詞的分布位置、句子的結(jié)構(gòu)都很相似,如果你能看懂一種語言,就能大致猜測和它“血緣”關系近的另一種語言。
模型訓練
為了破解這兩種文字,研究者們提出了一個基于字符的seq2seq模型。
模型主要包含通用字符嵌入、剩余連接、單調(diào)排列正則化幾個部分。
其中,線性文字B的字母和希臘文需要進行對應。
之后,借助神經(jīng)解密算法,在具有不同語言特征的多種語言中提供強大的性能。
你懂的語言,和你不懂的語言
在算法模型的基礎之下,需要的語料庫除了待破解的烏加里特文和線性文字B,還需要一些現(xiàn)在的人類能看懂的語言。
研究團隊選擇了羅曼語族的數(shù)據(jù)庫,包含意大利語、西班牙語和葡萄牙語三種語言的同源語音轉(zhuǎn)錄,需要對它們進行同源檢測。
因此,數(shù)據(jù)集就用到上面這些,Symbols指的是語言中的字符,Token則是語言學中類似于單詞的存在。
準確率
運行成果還不錯,烏加里特文在無噪聲條件下優(yōu)于現(xiàn)有方法3.1%,在有噪聲條件下優(yōu)于現(xiàn)在的貝葉斯方法5.5%。
而線性文字B,在無噪聲條件下準確率高達84.7%,在更具挑戰(zhàn)性的LinearB名稱數(shù)據(jù)集中達到67.3%的準確度。
在羅曼語族同源識別任務中,西班牙語準確度提升3.4%,葡萄牙語提升1.6%。
線性文字B的祖先,線性文字A還沒有被人類破譯,它被譽為考古界圣杯。
未來,在這項研究起作用的情況下,或許可以像借助羅曼語族三種語言的數(shù)據(jù)庫一樣,直接用機器借助其他已知的人類語言,實現(xiàn)暴力破解。
想破腦殼的語言學家們,可以把工作重心放到別的事情上了。
-
谷歌
+關注
關注
27文章
6231瀏覽量
108091 -
MIT
+關注
關注
3文章
254瀏覽量
24410
原文標題:MIT&谷歌大腦用AI破解失傳的古代文字,被稱“現(xiàn)代版羅塞塔石碑”丨ACL 2019
文章出處:【微信號:worldofai,微信公眾號:worldofai】歡迎添加關注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
羅德與施瓦茨發(fā)布全新UDS系列數(shù)字萬用表
飛騰軟件支持平臺即將正式上線AI智能大腦
Banana Pi 發(fā)布 BPI-AI2N & BPI-AI2N Carrier,助力 AI 計算與嵌入式開發(fā)
羅德與施瓦茨推出CMX500 AI腳本助手
Meta非入侵式腦機技術:AI讀取大腦信號打字準確率80%
谷歌Gemini AI目標年底用戶達5億
谷歌加速AI部門整合:AI Studio團隊并入DeepMind
《算力芯片 高性能 CPUGPUNPU 微架構(gòu)分析》第3篇閱讀心得:GPU革命:從圖形引擎到AI加速器的蛻變
機場運營商Fraport與羅德與施瓦茨簽訂合作協(xié)議
喆塔科技先進制程AI賦能中心&校企聯(lián)合實驗室落戶蘇州

喆塔智芯簽約儀式暨喆塔科技半導體AI創(chuàng)新總部啟動儀式圓滿舉辦

評論