开心蜜桃激情丁香婷婷,日本三级在线线播放,亚洲国产精品AV

當我們在翻譯軟件上輸入 “Transformer is a novel neural network architecture based on a self－attention mechanism” 后，計算機就可以迅速將它翻譯為 “Transformer 是一種基于自注意力機制的新型神經網絡架構”，神奇的機器翻譯使得多語種互譯成為可能。

近年來，得益于機器學習的快速發(fā)展，自然語言處理（NLP）技術不斷突破，在人機交互、在線翻譯工具等領域的應用層出不窮，不同語種的人與人、人與機器之間的無障礙自由交流得以實現(xiàn)。

當前的主流機器翻譯主要是基于神經網絡機器翻譯，這類方法是一個 “編碼器－解碼器”（encoder－decoder）架構的系統(tǒng)，編碼器對源語言序列進行編碼，并提取信息，然后通過解碼器把信息轉換為目標語言，完成語言翻譯過程。

自 2017 年問世以來，基于“編碼器－解碼器”架構設計的 Transformer 模型憑借其優(yōu)越的性能，已然成為機器翻譯領域的主流模型，在深度學習領域產生了巨大影響。

然而，Transformer 模型并非完美，模型引入self－attention機制雖實現(xiàn)了快速并行的訓練，但在長序列文本的處理問題上，卻需要占據(jù)大量計算資源，導致模型訓練成本提高。

近日，由 Google、劍橋大學、DeepMind 和艾倫·圖靈研究院（Alan Turing Institute）的研究人員組成的團隊基于正交隨機特征的快速注意力（Fast Attention Via Positive Orthogonal Random Features，F(xiàn)AVOR＋）機制，提出了一種新的 Transformer 模型——Performer。相比于 Transformer 模型，新模型無需做出過度調整就可以變得更加高效和節(jié)能。

Performer 模型的技術突破

2017 年，谷歌大腦（Google Brain）的 Ashish Vaswani 等人發(fā)表了一篇題為 “Attention Is All You Need” 的論文，首次提出一種基于自注意力機制的 Transformer 模型。

Transformer 模型顛覆了傳統(tǒng)神經網絡的架構，彌補了卷積神經網絡（CNN）和遞歸神經網絡（RNN）存在的不足，在語義特征提取、長距離特征捕獲、任務綜合特征抽取等自然語言處理方面表現(xiàn)出了更優(yōu)的性能，在自然語言處理、人機對話、圖像處理等許多領域都達到了當時最好的水平（SOTA）。

Transformer 架構的核心模塊是自注意力模塊，模型在處理每個單詞（輸入序列中的每個位置）時，自注意力模塊通過計算輸入序列中所有位置對的相似度分數(shù)，來尋找能夠幫助更好地編碼該單詞的線索。

然而，隨著輸入序列長度的增加，模型需要二次方的計算時間來產生所有相似度分數(shù)，所需計算內存也隨之增加，注意力機制面臨的效率問題也越來越突出。

針對那些需要長距離關注的應用，在 Transformer 基礎上已經有一些研究者提出了幾種快速的、空間利用率高的改進方法，但是大部分常見方法都依賴于稀疏注意力機制。

然而，稀疏注意力機制仍存在一定的局限性。

（1）它們需要高效的稀疏矩陣乘法運算，而這些運算并不是在所有加速器上都能實現(xiàn)的；（2）它們通常不能為其表示能力提供嚴格的理論保證；（3）它們主要針對 Transformer 模型和生成式預訓練進行優(yōu)化；（4）它們通常會疊加更多的注意力層來補償稀疏表示，這使得它們很難與其他預訓練模型一起使用，因此需要重新訓練并消耗大量能量。

此外，稀疏注意機制通常仍然不足以解決常規(guī)注意方法應用的全部問題，如指針網絡。還有一些運算不能被稀疏化，如在工業(yè)級推薦系統(tǒng)中被大量應用的 softmax 運算。

Performer 使用了一個高效的（線性）廣義注意力框架，能夠對常規(guī)（softmax）全階注意力進行可證明的、準確的、實用的估計，不依賴于任何稀疏性或低階等先驗條件，從而實現(xiàn)更快的訓練速度，同時允許模型處理更長的序列，這一特性恰恰滿足了 ImageNet64 圖像數(shù)據(jù)集和PG－19文本數(shù)據(jù)集的要求。

Performer 模型通過正交隨機特征（FAVOR＋）算法實現(xiàn)快速注意力機制，并改用 Positive Orthogonal Random Features 估計 softmax 和高斯核函數(shù)，以實現(xiàn)在 FAVOR＋機制中對常規(guī) softmax 注意力進行魯棒且無偏的估計。

研究人員表示：“Performer 是第一個通過微調可以與常規(guī) Transformers 進行完全兼容的線性架構”。

左圖｜原點對稱的通用函數(shù) r（定義為建立在：三角隨機特征和正隨機特征上的估計器的均方誤差（MSEs）的比值）是輸入特征向量與其長度l之間的角度 φ（以弧度為單位）的函數(shù)，函數(shù)的數(shù)值越大表示正隨機特征性能越好的（φ，l）空間區(qū)域；

右圖｜當l為定值 1 時，與變化的角度 φ 構成的函數(shù) r 為正切函數(shù)；右上角｜比較低 softmax 內核值區(qū)域中兩個估算器的 MSE。

作者通過比較發(fā)現(xiàn)，對于 φ 足夠大的臨界區(qū)域，該方法所使用的正交隨機特征比任意的三角隨機特征更精確。

圖｜我們將原始的經過預訓練的 Transformer 的權重轉移到 Performer 中，Performer 產的精度達到 0．07 （橙色虛線），但在原來的梯度步數(shù)的一小部分中，很快就恢復了精度。然而在 PG－19 上，三角法（TRIG） softmax 逼近變得非常不穩(wěn)定，而正特征（POS）（不重繪）和 Linformer （也是逼近 softmax）即使在重繪投影的情況下，也會在同樣的復雜度中趨于平穩(wěn)。具有特征重繪的正 softmax 是匹配 Transformer 的必要條件，SMREG 可實現(xiàn)更快的收斂。

這篇論文利用詳細的數(shù)學定理，證明了與其單純依靠計算資源來提升性能，還不如開發(fā)出改進的、高效的 Transformer 架構，來顯著降低能耗。同時，由于 Performers 使用了與 Transformer 相同的訓練超參數(shù)，也可以有效訓練基于 softmax 的線性 Transformer。因此 FAVOR＋機制可以作為一個簡單的插件，而無需進行過多的調整。

Performer 模型應用前景廣泛

研究人員表示，Performer 模型的提出，顯著降低了常規(guī) Transformer 的空間和時間復雜度，并在 Transformer 的研究以及非稀疏注意機制的作用方面開辟了新的途徑。

該論文利用詳細的數(shù)學定理，證明了與其單純依靠計算資源來提升性能，還不如開發(fā)出改進的、高效的 Transformer 架構，來顯著降低能耗。同時，由于 Performers 使用了與 Transformer 相同的訓練超參數(shù)，因此 FAVOR＋機制可以作為一個簡單的插件，而無需進行過多的調整。

該團隊在一系列豐富的場景下測試了 Performers 的性能，執(zhí)行的任務包括像素預測、蛋白質序列建模。在實驗設置中，一個 Performer 只用 FAVOR＋機制取代了常規(guī) Transformer 的注意力組件。

在使用蛋白質序列訓練一個 36 層模型的挑戰(zhàn)性任務上，基于 Performer 的模型（Performer－RELU）的性能優(yōu)于基線 Transformer 模型：Reformer 和 Linformer，后者的準確率顯著下降。

在標準的 ImageNet64 基準上，具有 6 層的 Performer 與具有 12 層的 Reformer 的準確性相當。優(yōu)化后，Performer 的速度達到了 Reformer 的兩倍。

研究人員表示，由于基于 Performer 的可擴展 Transformer 架構可以處理更長的序列，而不受注意力機制結構的限制，同時保持準確和魯棒性，相信它們可以在生物信息學領域帶來新的突破，如蛋白質的語言建模等技術已經顯示出強大的潛力。

責任編輯：xj

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

谷歌

谷歌

+關注

關注
27

文章
6231

瀏覽量
108153
Transformer

Transformer

+關注

關注
0

文章
151

瀏覽量
6522
自然語言

自然語言

+關注

關注
1

文章
292

瀏覽量
13656
nlp

nlp

+關注

關注
1

文章
490

瀏覽量
22625

一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

搜索歷史

NLP：谷歌Transformer再升級

評論