一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

無法被AI識別翻譯的古老語言,將去何方?

如意 ? 來源:OFweek電子工程網(wǎng) ? 作者:學(xué)術(shù)頭條 ? 2020-10-26 11:14 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

語言是文化的有機組成部分,也是文化的載體,世界文明的多樣性在很大程度上表現(xiàn)為世界語言的多樣性。而在 21 世紀(jì)的今天,語言學(xué)家們顯然已經(jīng)不滿足于傳統(tǒng)的、對已知語言的研究。相反,許多科學(xué)家開始利用計算機技術(shù),去探索已經(jīng)消失的、幾乎成為謎底的滅絕古老語言。

近日,麻省理工學(xué)院計算機科學(xué)與人工智能實驗室(Computer Science and Artificial Intelligence Laboratory 簡稱 CSAIL)的研究人員就開發(fā)出一種計算機算法,旨在幫助語言學(xué)家破譯歷史上已消失的語言。

無法“谷歌翻譯”的古老語言

如今,世界上現(xiàn)存約有 7100 種語言。然而,古時存在的大多數(shù)語言都已不再使用,幾近滅絕。數(shù)十種已滅絕語言也被認(rèn)為是“未破譯”的語言,也就是說,我們對它們的語法(grammar)、詞匯(vocabulary)或句法(syntax)了解不足,也無法理解其文本的意思。

圖 | 世界語言分布地圖 2018

而研究這些“未破譯”的語言,不僅僅是處于學(xué)術(shù)上的好奇心。還是因為,不理解語言,我們就會錯過與講這些語言的人有關(guān)的一整套知識體系。不幸的是,大多數(shù)滅絕語言的相關(guān)記錄極少,因此,科學(xué)家無法使用谷歌翻譯之類的機器翻譯工具或AI算法來對其進行解密。

而傳統(tǒng)的研究方法是,找出目標(biāo)語言的“相關(guān)”語言來作比較研究,例如同一語系或相似度較高的現(xiàn)存語言。然而,有些語言并沒有對應(yīng)的、已被深入研究過的“相關(guān)”語言,并且它們通常缺少諸如空格和標(biāo)點符號之類的傳統(tǒng)分隔符(想像一下,要解密出用這種語言寫出的文字該有多么令人頭禿)。

但是,CSAIL 的研究人員發(fā)明的新系統(tǒng),已被證明能夠自動破譯消失的語言,且無需對其與其他語言的關(guān)系有深入的了解。他們還表明,該系統(tǒng)自身就可以確定語言之間的關(guān)系,并可以用它來證實最近的一項表明 Iberian 語言實際上與 Basque 語言無關(guān)的學(xué)術(shù)研究。

語言破譯:從文本到矢量的轉(zhuǎn)變

此研究由 MIT 教授 Regina Barzilay 牽頭,依賴于基于歷史語言學(xué)(historical linguistics)見解的幾項原則。其中一條原則是,一種給定的語言很少會直接添加或刪除整個音節(jié),但是很可能會發(fā)生某些近似發(fā)音的替換。比如,母語中帶有“ p”發(fā)音的單詞可能會在其后代演變中變?yōu)椤?b”,但是由于明顯的發(fā)音差異,變?yōu)椤?k”的可能性則較小。

通過整合這些原則和其他語言學(xué)約束,Barzilay 等人的新算法學(xué)習(xí)將語言發(fā)音嵌入多維向量空間,在該多維空間中,相應(yīng)矢量之間的距離反映了不同發(fā)音的差異。這種設(shè)計使他們能夠捕獲語言變化的相關(guān)特征,并將這些特征表達為計算約束(computational constraints)。因此,它可以評估兩種語言之間的相似度。實際上,當(dāng)對已知語言進行測試時,它甚至可以準(zhǔn)確地識別出該語言屬于哪個語系(language families)。例如英語、德語同屬于日耳曼語系。

不僅如此,算法生成的模型可以將古語言中的單詞進行細分,并將其一一映射到“相關(guān)”語言中的對應(yīng)單詞上去。研究團隊的最終目標(biāo)是使該系統(tǒng)僅僅使用幾千個單詞,就能夠破譯數(shù)十年來語言學(xué)家們都無法理解的古語言。

機器翻譯相關(guān)研究

實際上,這并非 MIT 首個使用計算機技術(shù)破譯已消失語言的研究。

早在 2010 年,Barzilay 就和其他合作者一起,開發(fā)出一個新的計算機算法,該算法在幾個小時內(nèi)就破解了古老的猶太語言烏加里特語(Ugaritic)。除了幫助破譯“神秘的”八種左右古老語言外,這項工作還可以擴大自動翻譯系統(tǒng)可以處理的語言數(shù)量。例如目前,谷歌翻譯支持103種語言,而破譯系統(tǒng)中使用的技術(shù)可以幫助其為數(shù)千種語言構(gòu)建詞典。

去年,Barzilay 等人也發(fā)表過一篇論文,文中使用改進的計算機算法破譯了線形文字 B(Linear B,出現(xiàn)在公元前 1400 年左右)。他們說,“我們的翻譯腳本能夠以 67.3%的準(zhǔn)確率將線性文字 B 的同源詞轉(zhuǎn)換成對應(yīng)的希臘語。據(jù)我們所知,該試驗是自動解讀線性文字 B 的第一次嘗試?!?/p>

在未來的工作中,該團隊希望擴展到將文本與已知語言的相關(guān)單詞相關(guān)聯(lián)的范圍之外,這種方法被稱為“基于同源的破譯方法”。

Barzilay 說:“例如,我們可以識別文本中涉及到的所有人或地點的信息,然后可以根據(jù)已知的歷史證據(jù)對其進行進一步的調(diào)查。這些實體識別(entity recognition)方法如今已廣泛用于各種文本處理應(yīng)用程序中,并且具有很高的準(zhǔn)確性 ?!?br /> 責(zé)編AJX

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 谷歌
    +關(guān)注

    關(guān)注

    27

    文章

    6231

    瀏覽量

    108143
  • 算法
    +關(guān)注

    關(guān)注

    23

    文章

    4710

    瀏覽量

    95394
  • AI
    AI
    +關(guān)注

    關(guān)注

    88

    文章

    35164

    瀏覽量

    279956
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    AI耳機變身翻譯官+會議總結(jié)大師?涂鴉AI音頻開發(fā)方案,讓耳機升級到下一個level

    在接入AI能力后,耳機這種日?;漠a(chǎn)品,能有多大的想象空間?它不僅能幫你輕松聽懂全球外語和地方方言,還能將語音轉(zhuǎn)化為文字、翻譯成不同語言,甚至自動總結(jié)會議要點、生成思維導(dǎo)圖,適配辦公、學(xué)習(xí)、跨
    的頭像 發(fā)表于 07-10 18:47 ?377次閱讀
    <b class='flag-5'>AI</b>耳機變身<b class='flag-5'>翻譯</b>官+會議總結(jié)大師?涂鴉<b class='flag-5'>AI</b>音頻開發(fā)方案,讓耳機升級到下一個level

    CYUSB3014無法識別為USB3.0設(shè)備怎么解決?

    。CYUSB3014的供電部分我參考了官方文檔,但是我用0歐姆電阻替代了磁珠。沒有磁珠可能會導(dǎo)致無法識別為USB3.0設(shè)備嗎?
    發(fā)表于 04-30 07:24

    安信可AI人臉識別方案

    作為神仙世界的高科技,"無接觸式開鎖",人臉識別技術(shù)也廣泛應(yīng)用在現(xiàn)代生活中,安信可也有AI人臉識別方案!
    的頭像 發(fā)表于 02-25 14:39 ?431次閱讀
    安信可<b class='flag-5'>AI</b>人臉<b class='flag-5'>識別</b>方案

    Meta與UNESCO合作推動多語言AI發(fā)展

    Meta最近宣布了一項與聯(lián)合國教科文組織(UNESCO)合作的全新計劃——語言技術(shù)伙伴計劃。該計劃旨在收集多種語言的語音錄音和文字記錄,以推動未來開放可用的人工智能(AI)技術(shù)的發(fā)展,特別關(guān)注那些
    的頭像 發(fā)表于 02-08 11:04 ?621次閱讀

    AI助力實時翻譯耳機

    你是否曾經(jīng)因為語言障礙而無法與外國人順暢交流?或者在旅行中因為語言不通而錯過了一些精彩的經(jīng)歷?現(xiàn)在,隨著AI技術(shù)的發(fā)展,實時翻譯耳機可以幫你
    的頭像 發(fā)表于 01-24 11:14 ?1676次閱讀
    <b class='flag-5'>AI</b>助力實時<b class='flag-5'>翻譯</b>耳機

    大模型進化論:AI產(chǎn)業(yè)落地將卷向何方?

    大模型進化論:AI產(chǎn)業(yè)落地將卷向何方?
    的頭像 發(fā)表于 01-24 09:28 ?347次閱讀

    TSW14J56EVM無法HSDC Pro軟件識別是哪里出了問題?

    近期購買了一批TI公司的器件,其中包括4塊TSW14J56EVM的板子,經(jīng)測試發(fā)現(xiàn),有一塊板子無法HSDC Pro軟件識別,即板子無法與PC無法
    發(fā)表于 12-13 08:21

    LLMWorld上線代碼翻譯新工具——問丫·碼語翻譯俠,快來體驗!

    01. 工具介紹 aicode.llmworld.net 問丫·碼語翻譯俠 是一款由LLMWorld新推出的代碼翻譯工具,支持各種語言之間的翻譯,包括計算機
    的頭像 發(fā)表于 12-09 11:11 ?1006次閱讀
    LLMWorld上線代碼<b class='flag-5'>翻譯</b>新工具——問丫·碼語<b class='flag-5'>翻譯</b>俠,快來體驗!

    IMAX攜手Camb.AI實現(xiàn)影院實時語言翻譯

    近日,據(jù)外媒最新報道,國際知名影院品牌IMAX與總部位于迪拜的人工智能初創(chuàng)公司Camb.AI宣布達成戰(zhàn)略合作,旨在為全球影院觀眾帶來前所未有的實時語言翻譯體驗。 此次合作的核心目標(biāo)是將IMAX的原創(chuàng)
    的頭像 發(fā)表于 11-26 13:55 ?855次閱讀

    USB驅(qū)動問題:設(shè)備無法識別的全面指南!

    今天我把USB驅(qū)動問題,關(guān)于設(shè)備無法識別方面做一個全面指南供大家參考。連接USB無法識別模組設(shè)備,是不是驅(qū)動問題?今天就一起來聊聊如何排查解決。
    的頭像 發(fā)表于 11-26 12:35 ?1277次閱讀
    USB驅(qū)動問題:設(shè)備<b class='flag-5'>無法</b><b class='flag-5'>識別</b>的全面指南!

    語音識別與自然語言處理的關(guān)系

    在人工智能的快速發(fā)展中,語音識別和自然語言處理(NLP)成為了兩個重要的技術(shù)支柱。語音識別技術(shù)使得機器能夠理解人類的語音,而自然語言處理則讓機器能夠理解、解釋和生成人類
    的頭像 發(fā)表于 11-26 09:21 ?1505次閱讀

    如何在STM32f4系列開發(fā)板上部署STM32Cube.AI,

    已下載STM32Cube.AI擴展包,但是無法使用,感覺像是沒有部署AI模型,我是想要通過攝像頭拍照,上傳圖像后,經(jīng)過開發(fā)板處理器進行AI模型處理
    發(fā)表于 11-18 09:39

    PCM2707為什么無法電腦識別?

    現(xiàn)在只焊接了最基礎(chǔ)的部分,其它如控制跟I2S接口都還沒連接元件,相當(dāng)于空接,,現(xiàn)在無法電腦識別,系統(tǒng)WI8-64BIT,我購買的PCM2704的板可以電腦正常
    發(fā)表于 11-06 06:25

    DeepL推出新一代翻譯編輯大型語言模型

    在人工智能與語言處理領(lǐng)域,DeepL再次以其創(chuàng)新實力引領(lǐng)潮流,宣布成功推出新一代面向翻譯與編輯應(yīng)用的大型語言模型。這一里程碑式的進展,不僅鞏固了DeepL作為頂尖語言人工智能公司的地位
    的頭像 發(fā)表于 07-19 15:56 ?1016次閱讀