欧美午夜一区二区三区,91rs爱爱视频,日韩精品素人在线

失敗是成功之母：HER有自我審視能力。

OpenAI的研究人員集中精力于構(gòu)建具有更強的學(xué)習(xí)能力的人工智能。得益于他們的增強學(xué)習(xí)系統(tǒng)OpenAI baselines，機器學(xué)習(xí)算法可以進行自主學(xué)習(xí)。目前，這個新的算法保證人工智能可以像人類一樣從自己的錯誤中汲取教訓(xùn)。

這個進步源于OpenAI的研究人員在近期公布的名為“后見之明經(jīng)驗復(fù)現(xiàn)（Hindsight Experience Reply, HER）”的開源算法。正如名字所示，HER幫助人工智能系統(tǒng)在完成一項任務(wù)后，具有自我審視的能力。OpenAI的博客中提到，人工智能認為失敗乃成功之母。

研究人員寫到：“構(gòu)建HER的關(guān)鍵在于利用人類的直覺：在實現(xiàn)某個任務(wù)時，雖然我們沒有成功，但是在這個過程中我們學(xué)到一些不一樣的東西，既然如此，為何不能將我們最終學(xué)到的知識作為我們最初的目標呢？“

簡而言之，這意味著每一次失敗的嘗試都是為了實現(xiàn)一個意想不到的“虛擬”目標，而非既定目標。

回想一下你學(xué)騎單車的經(jīng)歷，在最開始的幾次嘗試中，你無法掌握平衡。但是這些經(jīng)驗告訴了你怎么騎車是不正確的，怎么做不能保持平衡。就像在人類的學(xué)習(xí)過程中，每一次的失敗讓我們距離成功更進一步。

獎勵每一次失敗，并且失敗也不沮喪

通過使用HER，OpenAI希望他們的人工智能系統(tǒng)可以利用上述的方法來學(xué)習(xí)。與此同時，這種算法也被作為增強學(xué)習(xí)模型中的獎勵機制的替代算法。為了訓(xùn)練人工智能，使其具有獨立的學(xué)習(xí)能力，它需要包含一個獎勵機制：如果人工智能算法達到了預(yù)期目標，就可以得到一個小獎勵，就像獎勵給小孩子一塊奶油餅干一樣，否則就什么都得不到。另外一個系統(tǒng)根據(jù)人工智能距離預(yù)期目標的距離來給出獎勵。

但是這兩種算法并不是完美的。第一個算法會阻礙學(xué)習(xí)，因為一個人工智能算法在訓(xùn)練過程中要么得到獎勵，要么沒得到。另一方面，根據(jù)IEEE Spectrum報道的內(nèi)容顯示，第二系統(tǒng)在實現(xiàn)時，需要衡量與目標的距離并給出獎勵，這個過程是很需要技巧的。如果把每一個任務(wù)都當作是后見之明的目標，即使人工智能系統(tǒng)沒有完成指定的任務(wù)，HER也會提供一個獎勵。這樣幫助人工智能更快更好地學(xué)習(xí)。

OpenAI 在他的的博客中提到：“通過進行這種獎勵機制的替換，強化學(xué)習(xí)算法在實現(xiàn)某些目標后會獲得一個學(xué)習(xí)信號，即使這個學(xué)習(xí)任務(wù)不是它最初希望實現(xiàn)的。如果重復(fù)這個過程，系統(tǒng)最終可以實現(xiàn)任意的目標，包括最初的既定目標。

這種方法并不意味著使用HER方法可以完全簡化人工智能系統(tǒng)學(xué)習(xí)某個任務(wù)的過程。研究者表示：“在機器人上使用HER進行學(xué)習(xí)仍然很難實現(xiàn)，因為這個過程需要大量的數(shù)據(jù)“。

無論如何，正如OpenAI的模型所顯示的，HER有助于鼓勵人工智能系統(tǒng)像人類一樣從錯誤中學(xué)習(xí)，兩者的主要區(qū)別在于人工智能在面對失敗的時候不會像一些脆弱的人類那樣傷心沮喪。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴