一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

自然語言處理(NLP)技術不斷突破,谷歌Transformer再升級

工程師鄧生 ? 來源:OFweek維科網(wǎng) ? 作者:學術頭條 ? 2020-11-05 15:18 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

當我們在翻譯軟件上輸入 “Transformer is a novel neural network architecture based on a self-attention mechanism” 后,計算機就可以迅速將它翻譯為 “Transformer 是一種基于自注意力機制的新型神經(jīng)網(wǎng)絡架構”,神奇的機器翻譯使得多語種互譯成為可能。

近年來,得益于機器學習的快速發(fā)展,自然語言處理(NLP)技術不斷突破,在人機交互、在線翻譯工具等領域的應用層出不窮,不同語種的人與人、人與機器之間的無障礙自由交流得以實現(xiàn)。

當前的主流機器翻譯主要是基于神經(jīng)網(wǎng)絡機器翻譯,這類方法是一個 “編碼器-解碼器”(encoder-decoder)架構的系統(tǒng),編碼器對源語言序列進行編碼,并提取信息,然后通過解碼器把信息轉換為目標語言,完成語言翻譯過程。

自 2017 年問世以來,基于“編碼器-解碼器”架構設計的 Transformer 模型憑借其優(yōu)越的性能,已然成為機器翻譯領域的主流模型,在深度學習領域產(chǎn)生了巨大影響。

然而,Transformer 模型并非完美,模型引入self-attention機制雖實現(xiàn)了快速并行的訓練,但在長序列文本的處理問題上,卻需要占據(jù)大量計算資源,導致模型訓練成本提高。

近日,由 Google、劍橋大學、DeepMind 和艾倫·圖靈研究院(Alan Turing Institute)的研究人員組成的團隊基于正交隨機特征的快速注意力(Fast Attention Via Positive Orthogonal Random Features,F(xiàn)AVOR+)機制,提出了一種新的 Transformer 模型——Performer。相比于 Transformer 模型,新模型無需做出過度調(diào)整就可以變得更加高效和節(jié)能。

Performer 模型的技術突破

2017 年,谷歌大腦(Google Brain)的 Ashish Vaswani 等人發(fā)表了一篇題為 “Attention Is All You Need” 的論文,首次提出一種基于自注意力機制的 Transformer 模型。

Transformer 模型顛覆了傳統(tǒng)神經(jīng)網(wǎng)絡的架構,彌補了卷積神經(jīng)網(wǎng)絡(CNN)和遞歸神經(jīng)網(wǎng)絡(RNN)存在的不足,在語義特征提取、長距離特征捕獲、任務綜合特征抽取等自然語言處理方面表現(xiàn)出了更優(yōu)的性能,在自然語言處理、人機對話、圖像處理等許多領域都達到了當時最好的水平(SOTA)。

Transformer 架構的核心模塊是自注意力模塊,模型在處理每個單詞(輸入序列中的每個位置)時,自注意力模塊通過計算輸入序列中所有位置對的相似度分數(shù),來尋找能夠幫助更好地編碼該單詞的線索。

然而,隨著輸入序列長度的增加,模型需要二次方的計算時間來產(chǎn)生所有相似度分數(shù),所需計算內(nèi)存也隨之增加,注意力機制面臨的效率問題也越來越突出。

針對那些需要長距離關注的應用,在 Transformer 基礎上已經(jīng)有一些研究者提出了幾種快速的、空間利用率高的改進方法,但是大部分常見方法都依賴于稀疏注意力機制。

然而,稀疏注意力機制仍存在一定的局限性。

(1)它們需要高效的稀疏矩陣乘法運算,而這些運算并不是在所有加速器上都能實現(xiàn)的;(2)它們通常不能為其表示能力提供嚴格的理論保證;(3)它們主要針對 Transformer 模型和生成式預訓練進行優(yōu)化;(4)它們通常會疊加更多的注意力層來補償稀疏表示,這使得它們很難與其他預訓練模型一起使用,因此需要重新訓練并消耗大量能量。

此外,稀疏注意機制通常仍然不足以解決常規(guī)注意方法應用的全部問題,如指針網(wǎng)絡。還有一些運算不能被稀疏化,如在工業(yè)級推薦系統(tǒng)中被大量應用的 softmax 運算。

Performer 使用了一個高效的(線性)廣義注意力框架,能夠對常規(guī)(softmax)全階注意力進行可證明的、準確的、實用的估計,不依賴于任何稀疏性或低階等先驗條件,從而實現(xiàn)更快的訓練速度,同時允許模型處理更長的序列,這一特性恰恰滿足了 ImageNet64 圖像數(shù)據(jù)集和PG-19文本數(shù)據(jù)集的要求。

Performer 模型通過正交隨機特征(FAVOR+)算法實現(xiàn)快速注意力機制,并改用 Positive Orthogonal Random Features 估計 softmax 和高斯核函數(shù),以實現(xiàn)在 FAVOR+ 機制中對常規(guī) softmax 注意力進行魯棒且無偏的估計。

研究人員表示:“Performer 是第一個通過微調(diào)可以與常規(guī) Transformers 進行完全兼容的線性架構”。

左圖 | 原點對稱的通用函數(shù) r(定義為建立在:三角隨機特征和正隨機特征上的估計器的均方誤差(MSEs)的比值)是輸入特征向量與其長度l之間的角度 φ(以弧度為單位)的函數(shù), 函數(shù)的數(shù)值越大表示正隨機特征性能越好的(φ,l)空間區(qū)域;

右圖 | 當l為定值 1 時,與變化的角度 φ 構成的函數(shù) r 為正切函數(shù);右上角 | 比較低 softmax 內(nèi)核值區(qū)域中兩個估算器的 MSE。

作者通過比較發(fā)現(xiàn),對于 φ 足夠大的臨界區(qū)域,該方法所使用的正交隨機特征比任意的三角隨機特征更精確。

圖| 我們將原始的經(jīng)過預訓練的 Transformer 的權重轉移到 Performer 中,Performer 產(chǎn)的精度達到 0.07 (橙色虛線),但在原來的梯度步數(shù)的一小部分中,很快就恢復了精度。然而在 PG-19 上,三角法(TRIG) softmax 逼近變得非常不穩(wěn)定,而正特征(POS)(不重繪)和 Linformer (也是逼近 softmax)即使在重繪投影的情況下,也會在同樣的復雜度中趨于平穩(wěn)。具有特征重繪的正 softmax 是匹配 Transformer 的必要條件,SMREG 可實現(xiàn)更快的收斂。

這篇論文利用詳細的數(shù)學定理,證明了與其單純依靠計算資源來提升性能,還不如開發(fā)出改進的、高效的 Transformer 架構,來顯著降低能耗。同時,由于 Performers 使用了與 Transformer 相同的訓練超參數(shù),也可以有效訓練基于 softmax 的線性 Transformer。因此 FAVOR+ 機制可以作為一個簡單的插件,而無需進行過多的調(diào)整。

Performer 模型應用前景廣泛

研究人員表示,Performer 模型的提出,顯著降低了常規(guī) Transformer 的空間和時間復雜度,并在 Transformer 的研究以及非稀疏注意機制的作用方面開辟了新的途徑。

該論文利用詳細的數(shù)學定理,證明了與其單純依靠計算資源來提升性能,還不如開發(fā)出改進的、高效的 Transformer 架構,來顯著降低能耗。同時,由于 Performers 使用了與 Transformer 相同的訓練超參數(shù),因此 FAVOR+ 機制可以作為一個簡單的插件,而無需進行過多的調(diào)整。

該團隊在一系列豐富的場景下測試了 Performers 的性能,執(zhí)行的任務包括像素預測、蛋白質(zhì)序列建模。在實驗設置中,一個 Performer 只用 FAVOR+ 機制取代了常規(guī) Transformer 的注意力組件。

在使用蛋白質(zhì)序列訓練一個 36 層模型的挑戰(zhàn)性任務上,基于 Performer 的模型(Performer-RELU)的性能優(yōu)于基線 Transformer 模型:Reformer 和 Linformer,后者的準確率顯著下降。

在標準的 ImageNet64 基準上,具有 6 層的 Performer 與具有 12 層的 Reformer 的準確性相當。優(yōu)化后,Performer 的速度達到了 Reformer 的兩倍。

研究人員表示,由于基于 Performer 的可擴展 Transformer 架構可以處理更長的序列,而不受注意力機制結構的限制,同時保持準確和魯棒性,相信它們可以在生物信息學領域帶來新的突破,如蛋白質(zhì)的語言建模等技術已經(jīng)顯示出強大的潛力。

責任編輯:PSY

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 谷歌
    +關注

    關注

    27

    文章

    6231

    瀏覽量

    108114
  • 軟件
    +關注

    關注

    69

    文章

    5152

    瀏覽量

    89209
  • nlp
    nlp
    +關注

    關注

    1

    文章

    490

    瀏覽量

    22621
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    如何使用自然語言處理分析文本數(shù)據(jù)

    使用自然語言處理NLP)分析文本數(shù)據(jù)是一個復雜但系統(tǒng)的過程,涉及多個步驟和技術。以下是一個基本的流程,幫助你理解如何使用NLP來分析文本數(shù)
    的頭像 發(fā)表于 12-05 15:27 ?1572次閱讀

    自然語言處理與機器學習的關系 自然語言處理的基本概念及步驟

    自然語言處理(Natural Language Processing,簡稱NLP)是人工智能和語言學領域的一個分支,它致力于研究如何讓計算機能夠理解、解釋和生成人類
    的頭像 發(fā)表于 12-05 15:21 ?1981次閱讀

    語音識別與自然語言處理的關系

    在人工智能的快速發(fā)展中,語音識別和自然語言處理NLP)成為了兩個重要的技術支柱。語音識別技術使得機器能夠理解人類的語音,而
    的頭像 發(fā)表于 11-26 09:21 ?1495次閱讀

    什么是LLM?LLM在自然語言處理中的應用

    隨著人工智能技術的飛速發(fā)展,自然語言處理NLP)領域迎來了革命性的進步。其中,大型語言模型(LLM)的出現(xiàn),標志著我們對
    的頭像 發(fā)表于 11-19 15:32 ?3641次閱讀

    ASR與自然語言處理的結合

    ASR(Automatic Speech Recognition,自動語音識別)與自然語言處理NLP)是人工智能領域的兩個重要分支,它們在許多應用中緊密結合,共同構成了自然語言理解和
    的頭像 發(fā)表于 11-18 15:19 ?1025次閱讀

    循環(huán)神經(jīng)網(wǎng)絡在自然語言處理中的應用

    自然語言處理NLP)是人工智能領域的一個重要分支,它致力于使計算機能夠理解、解釋和生成人類語言。隨著深度學習技術的發(fā)展,循環(huán)神經(jīng)網(wǎng)絡(RN
    的頭像 發(fā)表于 11-15 09:41 ?813次閱讀

    使用LSTM神經(jīng)網(wǎng)絡處理自然語言處理任務

    自然語言處理NLP)是人工智能領域的一個重要分支,它旨在使計算機能夠理解、解釋和生成人類語言。隨著深度學習技術的發(fā)展,特別是循環(huán)神經(jīng)網(wǎng)絡(
    的頭像 發(fā)表于 11-13 09:56 ?1157次閱讀

    自然語言處理的未來發(fā)展趨勢

    隨著技術的進步,自然語言處理NLP)已經(jīng)成為人工智能領域的一個重要分支。NLP的目標是使計算機能夠理解、解釋和生成人類
    的頭像 發(fā)表于 11-11 10:37 ?1723次閱讀

    自然語言處理與機器學習的區(qū)別

    是計算機科學、人工智能和語言學領域的分支,它致力于使計算機能夠理解、解釋和生成人類語言。NLP的目標是縮小人類語言和計算機之間的差距,使計算機能夠
    的頭像 發(fā)表于 11-11 10:35 ?1540次閱讀

    自然語言處理的應用實例

    在當今數(shù)字化時代,自然語言處理NLP技術已經(jīng)成為我們?nèi)粘I畹囊徊糠?。從智能手機的語音助手到在線客服機器人,NLP
    的頭像 發(fā)表于 11-11 10:31 ?1608次閱讀

    使用LLM進行自然語言處理的優(yōu)缺點

    自然語言處理NLP)是人工智能和語言學領域的一個分支,它致力于使計算機能夠理解、解釋和生成人類語言。大型
    的頭像 發(fā)表于 11-08 09:27 ?2443次閱讀

    Llama 3 在自然語言處理中的優(yōu)勢

    自然語言處理NLP)的快速發(fā)展中,我們見證了從基于規(guī)則的系統(tǒng)到基于機器學習的模型的轉變。隨著深度學習技術的興起,NLP領域迎來了新的
    的頭像 發(fā)表于 10-27 14:22 ?729次閱讀

    AI大模型在自然語言處理中的應用

    AI大模型在自然語言處理NLP)中的應用廣泛且深入,其強大的語義理解和生成能力為NLP任務帶來了顯著的性能提升。以下是對AI大模型在NLP
    的頭像 發(fā)表于 10-23 14:38 ?1539次閱讀

    AI智能化問答:自然語言處理技術的重要應用

    自然語言處理NLP)是人工智能領域的一個重要分支,它致力于使計算機能夠理解、解釋和生成人類語言。問答系統(tǒng)作為NLP的一個重要應用,能夠精確
    的頭像 發(fā)表于 10-12 10:58 ?1094次閱讀
    AI智能化問答:<b class='flag-5'>自然語言</b><b class='flag-5'>處理</b><b class='flag-5'>技術</b>的重要應用

    圖像識別技術包括自然語言處理

    圖像識別技術自然語言處理是人工智能領域的兩個重要分支,它們在很多方面有著密切的聯(lián)系,但也存在一些區(qū)別。 一、圖像識別技術自然語言
    的頭像 發(fā)表于 07-16 10:54 ?1562次閱讀