一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

是否可以利用全局語義上下文改進QuickType鍵盤的單詞預(yù)測?

zhKF_jqr_AI ? 來源:未知 ? 作者:李倩 ? 2018-10-08 09:19 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

編者按:從iOS 8開始,蘋果就在iPhone上采用了一個全新的預(yù)測文本功能——QuickType鍵盤。當(dāng)你在打字的時候,系統(tǒng)會根據(jù)你的書寫風(fēng)格,提示接下來可能會鍵入的字詞或短語供你選擇,類似中文輸入法中的智能建議。

這一功能基于其背后強大的自然語言處理(NLP)模型,而在過去幾年中,這種詞向量模型也是新聞、搜索和地圖等其他應(yīng)用程序的核心。在這篇文章中,我們將介紹蘋果研究人員近期的一項新探索:是否可以利用全局語義上下文改進QuickType鍵盤的單詞預(yù)測?

簡介

You shall know a word by the company it keeps.(現(xiàn)代語言學(xué)名句:觀其伴而知其意。即通過分析大型語言語料庫中詞匯共現(xiàn)的模式,我們可以得出詞語的語義表征)

現(xiàn)如今,訓(xùn)練詞嵌入模型的大多數(shù)方法都圍繞句子中給定單詞的上下文,以出現(xiàn)在中心詞前后的幾個單詞(比如5個)為觀察“窗口”,從中挖掘信息。以美國《獨立宣言》中出現(xiàn)的代詞“self-evident”為例,它的左側(cè)是“hold these truths to be”,右側(cè)是“that all men are created”。

本文將在這類方法的基礎(chǔ)上做進一步擴展,探索模型是否能捕獲文檔的整個語義結(jié)構(gòu),簡而言之,在新模型中,“self-evident”將可以把整本《獨立宣言》作為自己的上下文。那么,這種全局語義上下文能否提高語言模型的性能呢?要解決這個問題,我們先看看現(xiàn)在的詞嵌入用法。

詞嵌入

詞嵌入(Word Embeddings)是NLP中的一個常見操作,現(xiàn)在,以無監(jiān)督方式訓(xùn)練的連續(xù)空間詞嵌入已經(jīng)被證實可用于各種NLP任務(wù),比如信息檢索、文本分類、問答和序列語言建模等。其中最基礎(chǔ)的一種詞嵌入是1-of-N Encoding,即假設(shè)存在一個大小為N的基礎(chǔ)單詞集,每個單詞都由一個N維系數(shù)向量表示(在單詞索引處為1,在其他地方為0)。

但這種方法有兩個缺陷,一是它的正交性會弱化相似單詞之間關(guān)系,二是編碼結(jié)果容易過長。因此我們也已經(jīng)有了更復(fù)雜的嵌入——將單詞映射到低維連續(xù)向量空間中的密集向量中,這種映射不僅能降低維度,還有利于捕獲關(guān)于單詞的語義、句法和語用信息。

有了詞向量,我們就能通過計算向量之間的距離判斷兩個單詞的相似程度。

比較常見的降維詞嵌入類型有兩種:

從單詞所在文本的上下文中導(dǎo)出表示(前L個單詞和后L個單詞,L一般是個較小的整數(shù))

利用圍繞單詞的全局上下文的表示(單詞所在的整個文本)

其中,利用文本上下文的方法包括:

用于預(yù)測的神經(jīng)網(wǎng)絡(luò)架構(gòu),如連續(xù)詞袋模型和skip-gram模型

序列語言模型中的投影層(projection layer)

編碼器的Bottleneck表示

利用全局上下文的方法包括:

全局矩陣分解方法,如潛在語義映射(LSM),它計算word-document共現(xiàn)次數(shù)

Log-Liner Model,如GloVe,它計算word-word共現(xiàn)次數(shù)

從理想的角度看,像LSM這種計算全局共現(xiàn)的方法其實是最接近真正的語義嵌入的,因為它們捕獲的是整個文本傳達的語義概念的統(tǒng)計信息。相比之下,基于預(yù)測的神經(jīng)網(wǎng)絡(luò)只是把語義關(guān)系封裝到以目標(biāo)單詞為中心的局部文本中,不夠全面。因此,當(dāng)涉及全局語義信息時,由這種方法產(chǎn)生的嵌入往往存在局限。

但是,盡管存在這種局限,現(xiàn)在越來越多的研究人員還是投向神經(jīng)網(wǎng)絡(luò),尤其是廣受歡迎的連續(xù)詞袋模型和skip-gram模型。因為它們能解決“國王對于女王就像男人對于女人”這類類比,而LSM經(jīng)常失敗。對此,一種普遍看法是基于LSM的方法會使向量空間的各個維度不夠精確,因此只能產(chǎn)生次優(yōu)的空間結(jié)構(gòu)。

這個認(rèn)識引起了蘋果研究人員的極大興趣,因為現(xiàn)用QuickType鍵盤是基于LSM設(shè)計的,在他們最新的博客中,他們就是否可以通過使用不同類型的神經(jīng)網(wǎng)絡(luò)架構(gòu)來實現(xiàn)更強大的語義嵌入進行了探討。

神經(jīng)架構(gòu)

談及生成詞嵌入,最著名的框架之一是word2vec,但研究人員在文章中采用的是一種能提供全局語義嵌入的特殊RNN——bi-LSTM。它允許模型訪問先前、當(dāng)前和未來的輸入信息,把握全局上下文。

為了讓模型能輸入整個完整文檔,他們重新設(shè)計了這個架構(gòu),如下圖所示,模型的輸出能提供與該文檔相關(guān)聯(lián)的語義類別這意味著生成的詞嵌入捕獲的是輸入的整個語義結(jié)構(gòu),而不僅是局部上下文。

這個架構(gòu)主要解決了兩個障礙。其一是對目標(biāo)單詞上下文的單詞數(shù)限制,它原則上可以容納無限長度的上下文,這樣就不僅可以處理句子,還可以處理整個段落,甚至是完整的文檔。

圖一 能捕獲全局語義結(jié)構(gòu)的RNN

其二涉及預(yù)測目標(biāo)本身。到目前為止,神經(jīng)網(wǎng)絡(luò)這種解決方案都基于局部上下文信息,無法充分反映全局語義信息,但是上圖已經(jīng)是一個能輸入完整文本的神經(jīng)網(wǎng)絡(luò)了。為了簡化語義標(biāo)簽的生成,研究人員發(fā)現(xiàn)派生合適的聚類類別是有幫助的,例如,他們可以用LSM獲得初始word-document嵌入。

設(shè)當(dāng)前存在一個文本塊(可以是句子,也可以是段落、文檔),它由T個單詞x(t)構(gòu)成(1≤t≤T),且存在一個全局關(guān)聯(lián)的語義類別z。我們把它輸入修改過的bi-LSTM。

用1-of-N encoding對輸入文本中的單詞x(t)編碼,把x(t)轉(zhuǎn)成N維稀疏向量。此時,x(t)左側(cè)的上下文向量h(t ? 1)維數(shù)為H,它包含前一個時間步的隱藏層中輸出值信息的內(nèi)部表示;x(t)右側(cè)的上下文向量g(t + 1)維數(shù)也是H,它包含下一個時間步的隱藏層中的右側(cè)上下文輸出值信息。網(wǎng)絡(luò)在當(dāng)前時間步計算隱藏節(jié)點的輸出值,如下所示:

其中,

F{·}表示激活函數(shù),如sigmoid、tanh、ReLU

s(t)表示網(wǎng)絡(luò)狀態(tài),這是左右上下文隱藏節(jié)點的串聯(lián):s(t) = [g(t) h(t)],維數(shù)為2H。我們可以把網(wǎng)絡(luò)狀態(tài)看作是2H向量空間中,單詞x(t)的連續(xù)空間表示

網(wǎng)絡(luò)的輸出是與輸入文本相關(guān)聯(lián)的語義類別。在每個時間步,對應(yīng)于當(dāng)前單詞的輸出標(biāo)簽z再被1-of-K encoding:

其中,G {·}表示softmax激活函數(shù)。

當(dāng)我們訓(xùn)練網(wǎng)絡(luò)時,我們假設(shè)有一組語義類別注釋可用。如前所述,這些注釋可能來自使用LSM獲得的初始word-document嵌入。為了避免出現(xiàn)梯度消失,這個架構(gòu)把隱藏節(jié)點設(shè)計成了LSTM和GRU里的形式,我們可以根據(jù)需要將圖一中的單個隱藏層擴展到任意復(fù)雜、任意深度的網(wǎng)絡(luò)。

神經(jīng)語言建模

在實驗中,研究人員使用的是之前訓(xùn)練QuickType時所用的語料庫的子集,如下表所示,他們測試了三種不同嵌入模型在測試集上的困惑度表現(xiàn),其中“1-of-N”表示標(biāo)準(zhǔn)稀疏嵌入,“word2vec”是標(biāo)準(zhǔn)word2vec嵌入,“bi-LSTM”是他們改進后的方法。

可以發(fā)現(xiàn),“bi-LSTM”使用的訓(xùn)練數(shù)據(jù)是最少的,但它的性能卻和比他多用了6倍訓(xùn)練數(shù)據(jù)的“word2vec”差不多,而“1-of-N”模型如果要達到同樣的困惑度,它使用的訓(xùn)練數(shù)據(jù)得是“bi-LSTM”的5000倍以上。

因此,這種能捕獲全局語義結(jié)構(gòu)的方法非常適合數(shù)據(jù)量有限的公司、實驗室。

結(jié)論

相比現(xiàn)有方法,將全局語義信息納入神經(jīng)語言模型具有明顯的潛在優(yōu)勢,它也是NLP研究的一個趨勢。但是,在實驗過程中,研究人員也發(fā)現(xiàn)這種方法確實還存在限制,在段落數(shù)據(jù)上訓(xùn)練詞嵌入和在句子數(shù)據(jù)上訓(xùn)練語言模型時,其中還存在一個長度不匹配的問題。

對此,研究人員提出的方案是修改語言模型訓(xùn)練中使用的客觀標(biāo)準(zhǔn),以便人們能在同一段落數(shù)據(jù)上同時訓(xùn)練嵌入和語言模型??傊褂胋i-LSTM RNN訓(xùn)練全局語義詞嵌入確實可以提高神經(jīng)語言建模的準(zhǔn)確性,它還可以大大降低對訓(xùn)練所需的數(shù)據(jù)量的要求。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴

原文標(biāo)題:Apple:全局語義上下文可以改善神經(jīng)語言模型嗎?

文章出處:【微信號:jqr_AI,微信公眾號:論智】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    HarmonyOS AI輔助編程工具(CodeGenie)代碼續(xù)寫

    利用AI大模型分析并理解開發(fā)者在代碼編輯區(qū)的上下文信息或自然語言描述信息,智能生成符合上下文的ArkTS或C++代碼片段。 一、使用約束 建議在編輯區(qū)內(nèi)已有較豐富上下文,能夠使模型對編
    發(fā)表于 07-15 16:15

    鴻蒙NEXT-API19獲取上下文,在class中和ability中獲取上下文,API遷移示例-解決無法在EntryAbility中無法使用最新版

    摘要:隨著鴻蒙系統(tǒng)API升級至16版本(modelVersion5.1.1),多項API已廢棄。獲取上下文需使用UIContext,具體方法包括:在組件中使用getUIContext(),在類中使
    的頭像 發(fā)表于 07-01 10:57 ?209次閱讀
    鴻蒙NEXT-API19獲取<b class='flag-5'>上下文</b>,在class中和ability中獲取<b class='flag-5'>上下文</b>,API遷移示例-解決無法在EntryAbility中無法使用最新版

    英語單詞學(xué)習(xí)頁面+單詞朗讀實現(xiàn) -- 【1】頁面實現(xiàn) ##HarmonyOS SDK AI##

    ?先看一下頁面效果 ? 整體頁面是一個比較簡潔的頁面,其中有兩個特色功能 對于例句中,能夠?qū)崿F(xiàn)將當(dāng)前的單詞從句子中進行識別并突出顯示 對于單詞和句子,可以進行朗讀,這個朗讀使用的是Core
    發(fā)表于 06-29 23:24

    Transformer架構(gòu)中編碼器的工作流程

    編碼器是Transformer體系結(jié)構(gòu)的基本組件。編碼器的主要功能是將輸入標(biāo)記轉(zhuǎn)換為上下文表示。與早期獨立處理token的模型不同,Transformer編碼器根據(jù)整個序列捕獲每個token的上下文。
    的頭像 發(fā)表于 06-10 14:27 ?296次閱讀
    Transformer架構(gòu)中編碼器的工作流程

    UIAbility組件基本用法說明

    用getContext接口獲取當(dāng)前頁面關(guān)聯(lián)的UIAbilityContext或ExtensionContext。 在UIAbility中可以通過this.context獲取UIAbility實例的上下文信息
    發(fā)表于 05-16 06:32

    S32K在AUTOSAR中使用CAT1 ISR,是否需要執(zhí)行上下文切換?

    如果我們在 AUTOSAR 中使用 CAT1 ISR,是否需要執(zhí)行上下文切換?另外,是否需要返回指令才能跳回到作系統(tǒng)?您有沒有帶有 CAT1 ISR 的 S32K3x4 微控制器的示例?
    發(fā)表于 03-27 07:34

    請問是否可以在模型服務(wù)器中使用REST請求OpenVINO?預(yù)測?

    是否可以在模型服務(wù)器中使用 REST 請求OpenVINO?預(yù)測?
    發(fā)表于 03-05 08:06

    DeepSeek推出NSA機制,加速長上下文訓(xùn)練與推理

    的特性,專為超快速的長上下文訓(xùn)練和推理而設(shè)計。 NSA通過針對現(xiàn)代硬件的優(yōu)化設(shè)計,顯著加快了推理速度,并大幅度降低了預(yù)訓(xùn)練成本,同時保持了卓越的性能表現(xiàn)。這一機制在確保效率的同時,并未犧牲模型的準(zhǔn)確性或功能。 在廣泛的基準(zhǔn)測試、涉及長上下文的任務(wù)以及基于指令的推理場景中,
    的頭像 發(fā)表于 02-19 14:01 ?640次閱讀

    【「基于大模型的RAG應(yīng)用開發(fā)與優(yōu)化」閱讀體驗】+Embedding技術(shù)解讀

    與文檔庫中每個文檔向量的相似度,來檢索最相關(guān)的文檔。這一過程依賴于Embedding模型對文本語義的準(zhǔn)確捕捉。檢索到的文檔與用戶的問題一起被Embedding模型轉(zhuǎn)換為向量,形成新的上下文信息,用于
    發(fā)表于 01-17 19:53

    《具身智能機器人系統(tǒng)》第7-9章閱讀心得之具身智能機器人與大模型

    學(xué)習(xí)任務(wù)、上下文長度、記憶和隱藏狀態(tài)提高適應(yīng)性。 任務(wù)適應(yīng) 依賴數(shù)據(jù)采集和微調(diào),可能效率較低。 利用復(fù)雜指令并自動從多樣的上下文中學(xué)習(xí)。 預(yù)訓(xùn)練階段 專注于世界知識和理解硬件。 強調(diào)在各種任務(wù)上學(xué)
    發(fā)表于 12-24 15:03

    是否可以利用偽差分的方式通過ADS1256進行采集?

    1、信號源為Vout和GND,Vout對GND可以為正也可以為負(fù),范圍在±300mv左右。是否可以利用偽差分的方式通過ADS1256進行采集?精度要達到0.01mv,
    發(fā)表于 12-13 06:14

    阿里通義千問發(fā)布Qwen2.5-Turbo開源AI模型

    近日,阿里通義千問官方宣布,經(jīng)過數(shù)月的精心優(yōu)化與改進,正式推出了Qwen2.5-Turbo開源AI模型。這款新模型旨在滿足社區(qū)對更長上下文長度的迫切需求,為用戶帶來更加便捷、高效的AI
    的頭像 發(fā)表于 11-19 18:07 ?1238次閱讀

    循環(huán)神經(jīng)網(wǎng)絡(luò)在自然語言處理中的應(yīng)用

    角色。 1. 語言模型 語言模型是NLP中的一個基礎(chǔ)任務(wù),它旨在預(yù)測一系列單詞中下一個單詞的概率分布。RNN通過維護一個隱藏狀態(tài)來捕捉上下文信息,從而能夠?qū)π蛄兄械南乱粋€
    的頭像 發(fā)表于 11-15 09:41 ?816次閱讀

    SystemView上下文統(tǒng)計窗口識別阻塞原因

    SystemView工具可以記錄嵌入式系統(tǒng)的運行時行為,實現(xiàn)可視化的深入分析。在新發(fā)布的v3.54版本中,增加了一項新功能:上下文統(tǒng)計窗口,提供了對任務(wù)運行時統(tǒng)計信息的深入分析,使用戶能夠徹底檢查每個任務(wù),幫助開發(fā)人員識別阻塞原因。
    的頭像 發(fā)表于 08-20 11:31 ?702次閱讀

    【《大語言模型應(yīng)用指南》閱讀體驗】+ 基礎(chǔ)知識學(xué)習(xí)

    能夠關(guān)注到輸入文本中的重要部分,從而提高預(yù)測的準(zhǔn)確性和效率。這種機制允許模型在處理文本時同時考慮多個位置的信息,并根據(jù)重要性進行加權(quán)處理。 一些關(guān)鍵技術(shù) 1. 上下文理解 大語言模型能夠同時考慮句子前后
    發(fā)表于 08-02 11:03