一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

解決量子神經(jīng)網(wǎng)絡消失梯度問題 更好利用 NISQ 設備資源

Tensorflowers ? 來源: Andrea Skolik ? 作者: Andrea Skolik ? 2020-09-02 16:41 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

文 /大眾汽車公司和萊頓大學的 Andrea Skolik

3 月初,Google 與滑鐵盧大學和大眾汽車公司共同發(fā)布了 TensorFlow Quantum(TFQ)。TensorFlow Quantum 是一個量子機器學習 (QML) 軟件框架,允許研究員聯(lián)合使用 Cirq 和 TensorFlow 的功能。Cirq 和 TFQ 都用于模擬噪聲中等規(guī)模量子 (NISQ) 的設備。這些設備當前仍處于實驗階段,因此未經(jīng)糾錯,還會受到噪聲輸出的影響。

本文介紹的訓練策略可以解決量子神經(jīng)網(wǎng)絡 (QNN) 中的消失梯度問題,并更好地利用 NISQ 設備提供的資源。

量子神經(jīng)網(wǎng)絡

訓練 QNN 與訓練經(jīng)典神經(jīng)網(wǎng)絡沒有太大不同,區(qū)別僅在于優(yōu)化量子電路的參數(shù)而不是優(yōu)化網(wǎng)絡權重。量子電路的外形如下所示:

用于四個量子位分類任務的簡化 QNN

電路從左到右讀取,每條水平線對應量子計算機寄存器中的一個量子位,每個量子位都初始化為零狀態(tài)。方框表示對按順序執(zhí)行的量子位的參數(shù)化運算(或“門”)。在這種情況下,我們有三種不同類型的運算,X、Y 和 Z。垂直線表示兩個量子邏輯門,可用于在 QNN 中產生糾纏 - 一種使量子計算機勝過經(jīng)典計算機的資源。我們在每個量子位上將一層表示為一個運算,然后將一系列的門連接成對的量子位,產生糾纏。

上圖為用于學習 MNIST 數(shù)字分類的簡化 QNN。

首先,將數(shù)據(jù)集編碼為量子態(tài)。使用數(shù)據(jù)編碼層來完成這一操作,上圖中標記為橙色。在這種情況下,我們將輸入數(shù)據(jù)轉換為向量,并將向量值用作數(shù)據(jù)編碼層運算的參數(shù) d ?;诖溯斎雸?zhí)行電路中藍色標記的部分,這一部分代表 QNN 的可訓練門,用 p表示。

量子電路的最后一個運算是測量。計算期間,量子設備對經(jīng)典位串的疊加執(zhí)行運算。當我們在電路上執(zhí)行讀出時,疊加狀態(tài)坍縮為一個經(jīng)典位串,這就是最后的計算輸出。所謂的量子態(tài)坍縮是概率性的,要獲得確定性結果,我們需要對多個測量結果取平均值。

上圖中,綠色標記的部分是第三個量子位上的測量,這些測量結果用于預測 MNIST 樣本的標簽。將其與真實數(shù)據(jù)標簽對比,并像經(jīng)典神經(jīng)網(wǎng)絡一樣計算損失函數(shù)的梯度。由于參數(shù)優(yōu)化是經(jīng)典計算機使用 Adam 等優(yōu)化器處理,因此這些類型的 QNN 稱為“混合量子經(jīng)典算法”。

消失的梯度,又稱貧瘠高原

事實證明,QNN 與經(jīng)典神經(jīng)網(wǎng)絡一樣,也存在消失梯度的問題。由于 QNN 中梯度消失的原因與經(jīng)典神經(jīng)網(wǎng)絡有著本質的不同,因此采用了一個新術語:貧瘠高原 (Barren Plateaus)。本文不探討這一重要現(xiàn)象的所有細節(jié),建議感興趣的讀者閱讀首次介紹 QNN 訓練景觀 (Training Landscapes) 中貧瘠高原的文章。

簡而言之,當量子電路被隨機初始化,就會出現(xiàn)貧瘠高原 - 在上述電路中,這意味著隨機選擇運算及其參數(shù)。這是訓練參數(shù)化量子電路的一個重點問題,并且會隨著量子位數(shù)量和電路中層數(shù)的增加而越發(fā)嚴重,如下圖所示。

梯度方差根據(jù)隨機電路中量子位和層數(shù)的變化而衰減

對于下面介紹的算法,關鍵在于電路中添加的層越多,梯度的方差就越小。另一方面,類似于經(jīng)典神經(jīng)網(wǎng)絡,QNN 的表示能力也隨著深度的增加而增加。這里的問題是,隨著電路尺寸的增加,優(yōu)化景觀在很多位置都會趨于平坦,以至于難以找到局部最小值。

注意,對于 QNN,輸出通過多次測量的平均值進行估算。想要估算的量越小,獲得準確結果所需的測量就越多。如果這些量與測量不確定性或硬件噪聲造成的影響相比要小得多,這些量就無法可靠確定,電路優(yōu)化基本上會變成隨機游走。

為了成功訓練 QNN,必須避免參數(shù)的隨機初始化,同時也要阻止 QNN 在訓練過程中由于梯度變小而隨機化,例如在接近局部最小值的時候。為此,我們可以限制 QNN 的架構(例如,通過選擇某些門配置,這需要根據(jù)當前任務調整架構),或控制參數(shù)的更新,使其不會變得隨機。

分層學習

在我們與 Volkswagen Data:Lab(Andrea Skolik、Patrick van der Smagt、Martin Leib)和 Google AI Quantum(Jarrod R. McClean、Masoud Mohseni)網(wǎng)絡聯(lián)合發(fā)表的論文 Layerwise learning for quantum neural networks 中,我們介紹了一種避免初始化在高原上并避免網(wǎng)絡在訓練過程中在高原上結束的方法。接下來是一個關于 MNIST 數(shù)字二進制分類學習任務的分層學習 (Layerwise Learning) 示例。首先,我們需要定義待堆疊的層的結構。當前的學習任務未經(jīng)任何假設,因此各層選擇的布局與上圖相同:一層由每個初始化為零的量子位上的隨機門和兩個量子邏輯門組成,兩個量子邏輯門連接量子位以實現(xiàn)糾纏。

我們指定了若干個起始層,在本例中只有一個,將在訓練過程中始終保持活躍狀態(tài),并指定訓練每組層的周期數(shù)。另外兩個超參數(shù)是每個步驟中添加的新層數(shù),以及一次被最大訓練的層數(shù)。在這里選擇一種配置,其中每個步驟中添加兩個層,并凍結除起始層之外的所有先前層的參數(shù),以在每個步驟中僅訓練三個層。將每組層訓練 10 個周期,然后重復此過程十次,直到電路總共由 21 層組成。這里的事實依據(jù)是淺層電路會比深層電路產生更大梯度,由此避免了高原上的初始化。

這提供了一個優(yōu)化過程的良好起點,可以繼續(xù)訓練更大的連續(xù)層集。對另一個超參數(shù),我們定義了算法第二階段一起訓練的層的百分比。在此將電路分成兩半,交替訓練兩個部分,其中不活動部分的參數(shù)始終凍結。一個所有分區(qū)都訓練過一次的訓練序列稱為掃描,對這個電路執(zhí)行掃描,直到損失收斂。當完整參數(shù)集始終完成訓練時,我們將這種情況稱為“完全深度學習”(Complete Depth Learning),一個欠佳的更新步驟會影響整個電路并將其引入隨機配置,導致無從逃脫的貧瘠高原。

接下來將我們的訓練策略與訓練 QNN 的標準技術 CDL 進行比較。為了得到公平的結果,我們使用與先前 LL 策略生成的電路架構完全相同的電路架構,但現(xiàn)在在每一步中同時更新所有參數(shù)。為了給 CDL 提供訓練的機會,參數(shù)將優(yōu)化為零,而不是隨機優(yōu)化。由于無法使用真正的量子計算機,因此我們模擬 QNN 的概率輸出,并選擇一個相對較低的值來估計 QNN 每次預測的測量次數(shù)——此例中為 10。假設真正的量子計算機上的采樣率為 10kHZ,我們可以估算出訓練運行的實驗性掛鐘時間,如下所示:

不同學習率 η 的分層深度學習和完全深度學習的比較。每種配置訓練了 100 個電路,并對最終測試誤差低于 0.5(圖例中成功運行的次數(shù))的電路取平均值

通過少量的測量,可以研究 LL 和 CDL 方法不同梯度幅度的影響:如果梯度值較大,則與較小值相比,10 次測量可以提供更多信息。執(zhí)行參數(shù)更新的信息越少,損失的方差就越大,執(zhí)行錯誤更新的風險也就越大,這將使更新的參數(shù)隨機化,并導致 QNN 進入高原。這一方差可以通過更小的學習率降低,因此上圖比較了學習率不同的 LL 和 CDL 策略。

值得注意的是,CDL 運行的測試誤差會隨運行時間的增加而增加,最初看起來像是過擬合。然而,這張圖中的每條曲線都是多次運行的平均值,實際情況是,越來越多的 CDL 運行在訓練過程中隨機化,無法恢復。如圖例所示,與 CDL 相比,LL 運行中有更大一部分在測試集上實現(xiàn)了小于 0.5 的分類誤差,所用時間也更少。

綜上所述,分層學習提高了在更少訓練時間內成功訓練 QNN 的概率,總體上具有更好的泛化誤差,這在 NISQ 設備上尤其實用。
原文標題:介紹量子神經(jīng)網(wǎng)絡訓練策略,解決消失梯度問題

文章出處:【微信公眾號:TensorFlow】歡迎添加關注!文章轉載請注明出處。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴

原文標題:介紹量子神經(jīng)網(wǎng)絡訓練策略,解決消失梯度問題

文章出處:【微信號:tensorflowers,微信公眾號:Tensorflowers】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    BP神經(jīng)網(wǎng)絡與卷積神經(jīng)網(wǎng)絡的比較

    BP神經(jīng)網(wǎng)絡與卷積神經(jīng)網(wǎng)絡在多個方面存在顯著差異,以下是對兩者的比較: 一、結構特點 BP神經(jīng)網(wǎng)絡 : BP神經(jīng)網(wǎng)絡是一種多層的前饋神經(jīng)網(wǎng)絡
    的頭像 發(fā)表于 02-12 15:53 ?659次閱讀

    如何優(yōu)化BP神經(jīng)網(wǎng)絡的學習率

    訓練過程中發(fā)生震蕩,甚至無法收斂到最優(yōu)解;而過小的學習率則會使模型收斂速度緩慢,容易陷入局部最優(yōu)解。因此,正確設置和調整學習率對于訓練高效、準確的神經(jīng)網(wǎng)絡模型至關重要。 二、學習率優(yōu)化算法 梯度下降法及其變種 : 標準梯
    的頭像 發(fā)表于 02-12 15:51 ?928次閱讀

    什么是BP神經(jīng)網(wǎng)絡的反向傳播算法

    神經(jīng)網(wǎng)絡(即反向傳播神經(jīng)網(wǎng)絡)的核心,它建立在梯度下降法的基礎上,是一種適合于多層神經(jīng)元網(wǎng)絡的學習算法。該算法通過計算每層網(wǎng)絡的誤差,并將這
    的頭像 發(fā)表于 02-12 15:18 ?764次閱讀

    人工神經(jīng)網(wǎng)絡的原理和多種神經(jīng)網(wǎng)絡架構方法

    在上一篇文章中,我們介紹了傳統(tǒng)機器學習的基礎知識和多種算法。在本文中,我們會介紹人工神經(jīng)網(wǎng)絡的原理和多種神經(jīng)網(wǎng)絡架構方法,供各位老師選擇。 01 人工神經(jīng)網(wǎng)絡 ? 人工神經(jīng)網(wǎng)絡模型之所
    的頭像 發(fā)表于 01-09 10:24 ?1181次閱讀
    人工<b class='flag-5'>神經(jīng)網(wǎng)絡</b>的原理和多種<b class='flag-5'>神經(jīng)網(wǎng)絡</b>架構方法

    卷積神經(jīng)網(wǎng)絡與傳統(tǒng)神經(jīng)網(wǎng)絡的比較

    在深度學習領域,神經(jīng)網(wǎng)絡模型被廣泛應用于各種任務,如圖像識別、自然語言處理和游戲智能等。其中,卷積神經(jīng)網(wǎng)絡(CNNs)和傳統(tǒng)神經(jīng)網(wǎng)絡是兩種常見的模型。 1. 結構差異 1.1 傳統(tǒng)神經(jīng)網(wǎng)絡
    的頭像 發(fā)表于 11-15 14:53 ?1863次閱讀

    循環(huán)神經(jīng)網(wǎng)絡的常見調參技巧

    循環(huán)神經(jīng)網(wǎng)絡(Recurrent Neural Networks,簡稱RNN)是一種用于處理序列數(shù)據(jù)的深度學習模型,它能夠捕捉時間序列中的動態(tài)特征。然而,RNN的訓練往往比傳統(tǒng)的前饋神經(jīng)網(wǎng)絡更具
    的頭像 發(fā)表于 11-15 10:13 ?742次閱讀

    訓練RNN時如何避免梯度消失

    在處理長序列數(shù)據(jù)時,RNN(循環(huán)神經(jīng)網(wǎng)絡)模型可能會面臨梯度消失的問題,這是由于反向傳播過程中,由于連續(xù)的乘法操作,梯度會指數(shù)級地衰減,導致較早的時間步的輸入對較后時間步的
    的頭像 發(fā)表于 11-15 10:01 ?1022次閱讀

    循環(huán)神經(jīng)網(wǎng)絡的優(yōu)化技巧

    循環(huán)神經(jīng)網(wǎng)絡(Recurrent Neural Networks,簡稱RNN)是一種用于處理序列數(shù)據(jù)的深度學習模型,它能夠捕捉時間序列中的動態(tài)特征。然而,RNN在訓練過程中可能會遇到梯度消失
    的頭像 發(fā)表于 11-15 09:51 ?760次閱讀

    RNN模型與傳統(tǒng)神經(jīng)網(wǎng)絡的區(qū)別

    神經(jīng)網(wǎng)絡是機器學習領域中的一種強大工具,它們能夠模擬人腦處理信息的方式。隨著技術的發(fā)展,神經(jīng)網(wǎng)絡的類型也在不斷增加,其中循環(huán)神經(jīng)網(wǎng)絡(RNN)和傳統(tǒng)神經(jīng)網(wǎng)絡(如前饋
    的頭像 發(fā)表于 11-15 09:42 ?1124次閱讀

    LSTM神經(jīng)網(wǎng)絡與其他機器學習算法的比較

    神經(jīng)網(wǎng)絡 原理 LSTM是一種時間遞歸神經(jīng)網(wǎng)絡,能夠學習長期依賴信息。它通過引入門控機制(輸入門、遺忘門、輸出門)來控制信息的流動,從而解決了傳統(tǒng)RNN在處理長序列數(shù)據(jù)時的梯度消失
    的頭像 發(fā)表于 11-13 10:17 ?2130次閱讀

    LSTM神經(jīng)網(wǎng)絡在圖像處理中的應用

    長短期記憶(LSTM)神經(jīng)網(wǎng)絡是一種特殊的循環(huán)神經(jīng)網(wǎng)絡(RNN),它能夠學習長期依賴關系。雖然LSTM最初是為處理序列數(shù)據(jù)設計的,但近年來,它在圖像處理領域也展現(xiàn)出了巨大的潛力。 LSTM基本原理
    的頭像 發(fā)表于 11-13 10:12 ?1612次閱讀

    LSTM神經(jīng)網(wǎng)絡的調參技巧

    長短時記憶網(wǎng)絡(Long Short-Term Memory, LSTM)是一種特殊的循環(huán)神經(jīng)網(wǎng)絡(RNN),它能夠學習長期依賴信息。在實際應用中,LSTM網(wǎng)絡的調參是一個復雜且關鍵的過程,直接影響
    的頭像 發(fā)表于 11-13 10:01 ?1851次閱讀

    LSTM神經(jīng)網(wǎng)絡與傳統(tǒng)RNN的區(qū)別

    在深度學習領域,循環(huán)神經(jīng)網(wǎng)絡(RNN)因其能夠處理序列數(shù)據(jù)而受到廣泛關注。然而,傳統(tǒng)RNN在處理長序列時存在梯度消失梯度爆炸的問題。為了解決這一問題,LSTM(長短期記憶)
    的頭像 發(fā)表于 11-13 09:58 ?1206次閱讀

    LSTM神經(jīng)網(wǎng)絡在時間序列預測中的應用

    LSTM是一種特殊的循環(huán)神經(jīng)網(wǎng)絡(RNN),它能夠學習長期依賴關系。與傳統(tǒng)的RNN相比,LSTM通過引入門控機制(輸入門、遺忘門、輸出門)來解決梯度消失梯度爆炸的問題,使其能夠處理
    的頭像 發(fā)表于 11-13 09:54 ?2035次閱讀

    LSTM神經(jīng)網(wǎng)絡的基本原理 如何實現(xiàn)LSTM神經(jīng)網(wǎng)絡

    廣泛應用。 LSTM神經(jīng)網(wǎng)絡的基本原理 1. 循環(huán)神經(jīng)網(wǎng)絡(RNN)的局限性 傳統(tǒng)的RNN在處理長序列數(shù)據(jù)時會遇到梯度消失梯度爆炸的問題,
    的頭像 發(fā)表于 11-13 09:53 ?1569次閱讀