一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

什么是深度強(qiáng)化學(xué)習(xí)?

新機(jī)器視覺(jué) ? 來(lái)源:搜狐·51CTO ? 2020-08-28 14:21 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

如今,機(jī)器學(xué)習(xí)(Machine Learning,ML)和人工智能(Artificial Intelligence,AI)的相關(guān)算法越來(lái)越深度地融合到了我們的社會(huì)與生活中,并且在金融科技、醫(yī)療保健、以及交通運(yùn)輸?shù)雀鱾€(gè)方面起到了關(guān)鍵性的驅(qū)動(dòng)與促進(jìn)作用。如果說(shuō)20世紀(jì)下半葉,人類得益于以互聯(lián)網(wǎng)為基礎(chǔ)架構(gòu)的計(jì)算力和連通性總體進(jìn)步的話,那么人類在21世紀(jì)正在逐步走向由智能計(jì)算和智能機(jī)器的迭代。其中,以深度學(xué)習(xí)(Deep Learning,DL)為首的此類新型的計(jì)算范式通常屬于“監(jiān)督學(xué)習(xí)(supervised learning)”的范疇。其對(duì)應(yīng)的應(yīng)用--深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Networks,DNN),在疾病分類、圖像分割、以及語(yǔ)音識(shí)別等高科技系統(tǒng)和應(yīng)用方面,都取得了令人興奮進(jìn)步和驚人的成功。 不過(guò),深度神經(jīng)網(wǎng)絡(luò)系統(tǒng)往往需要大量的訓(xùn)練數(shù)據(jù),以及已知答案的帶標(biāo)簽樣本,才能正常地工作。并且,它們目前尚無(wú)法完全模仿人類學(xué)習(xí)和運(yùn)用智慧的方式。幾乎所有的AI專家都認(rèn)為:僅僅增加基于深度神經(jīng)網(wǎng)絡(luò)系統(tǒng)的規(guī)模和速度,是永遠(yuǎn)不會(huì)產(chǎn)生真正的“類人(human-like)”AI系統(tǒng)的。 因此,人們開(kāi)始轉(zhuǎn)向那些“監(jiān)督學(xué)習(xí)”以外的ML和AI計(jì)算范式和算法,試圖順應(yīng)人類的學(xué)習(xí)過(guò)程曲線。該領(lǐng)域研究的最廣泛的當(dāng)屬--強(qiáng)化學(xué)習(xí)(Reinforcement Learning,RL)。在本文中,我們通過(guò)相關(guān)知識(shí)和算法的介紹,和您簡(jiǎn)要地討論了如何將深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)融合在一起,產(chǎn)生所謂深度強(qiáng)化學(xué)習(xí)(Deep Reinforcement Learning,DRL),這一強(qiáng)大的AI系統(tǒng)。 什么是深度強(qiáng)化學(xué)習(xí)? 眾所周知,人類擅長(zhǎng)解決各種挑戰(zhàn)性的問(wèn)題,從低級(jí)的運(yùn)動(dòng)控制(如:步行、跑步、打網(wǎng)球)到高級(jí)的認(rèn)知任務(wù)(如:做數(shù)學(xué)題、寫詩(shī)、交談)。而強(qiáng)化學(xué)習(xí)則旨在使用軟、硬件之類的代理(具體含義請(qǐng)見(jiàn)下文),通過(guò)明確的定義、合理的設(shè)計(jì)等相關(guān)算法,來(lái)模仿人類的此類行為。也就是說(shuō),這種學(xué)習(xí)范式的目標(biāo)不是以簡(jiǎn)單的輸入/輸出方式(如:獨(dú)立的深度學(xué)習(xí)系統(tǒng)),來(lái)映射帶有標(biāo)簽的示例,而是要建立一種策略,通過(guò)幫助智能化的代理,以某種順序進(jìn)行動(dòng)作(具體含義請(qǐng)見(jiàn)下文),從而實(shí)現(xiàn)某項(xiàng)最終目標(biāo)。

圖片來(lái)源:《機(jī)器學(xué)習(xí)有哪些類型》(請(qǐng)參見(jiàn)-- https://towardsdatascience.com/what-are-the-types-of-machine-learning-e2b9e5d1756f)其實(shí),強(qiáng)化學(xué)習(xí)是一些面向目標(biāo)(goal-oriented)的算法,它們能夠?qū)W習(xí)如何實(shí)現(xiàn)復(fù)雜的目標(biāo),或通過(guò)多個(gè)步驟沿著某個(gè)特定維度來(lái)實(shí)現(xiàn)目標(biāo)的最大化。下面是強(qiáng)化學(xué)習(xí)在實(shí)際應(yīng)用中的三種示例:

讓一個(gè)棋盤游戲的獲勝率最大化。

讓財(cái)務(wù)模擬某筆交易的最大收益。

在復(fù)雜的環(huán)境中,保障機(jī)器人在移動(dòng)過(guò)程中的錯(cuò)誤行徑最小。

如下圖所示,其基本想法是:代理通過(guò)傳感器接收來(lái)自所處環(huán)境中的輸入數(shù)據(jù),使用強(qiáng)化學(xué)習(xí)的算法對(duì)其進(jìn)行處理,然后采取相應(yīng)的行動(dòng)以達(dá)到預(yù)定的目標(biāo)??梢?jiàn),這與人類在日常生活中的行為非常相似。

資料來(lái)源:《強(qiáng)化學(xué)習(xí)的簡(jiǎn)介》(請(qǐng)參見(jiàn)--http://incompleteideas.net/book/bookdraft2017nov5.pdf)深度強(qiáng)化學(xué)習(xí)中的基本定義 我們?cè)陂_(kāi)展后續(xù)討論之前,了解強(qiáng)化學(xué)習(xí)中所涉及和使用到的各種關(guān)鍵術(shù)語(yǔ)是非常實(shí)用的。其中包括:

代理(Agent):一種軟、硬件機(jī)制。它通過(guò)與周圍環(huán)境的交互,來(lái)采取相應(yīng)的措施。例如:一架正在送貨的無(wú)人機(jī),或是視頻游戲中引導(dǎo)超級(jí)瑪麗前進(jìn)的程序。當(dāng)然,算法本身也屬于代理。

動(dòng)作(Action):代理可以采取的各種可能性動(dòng)作。雖然動(dòng)作本身具有一定的不言自明性(self-explanatory),但是我們?nèi)孕枰尨砟軌驈囊幌盗须x散的、且可能的動(dòng)作中予以選擇。

環(huán)境(Environment):外界環(huán)境與代理之間存在著相互作用,以及做出響應(yīng)的關(guān)系。環(huán)境將代理當(dāng)前的狀態(tài)和動(dòng)作作為輸入,并將代理的獎(jiǎng)勵(lì)(具體含義請(qǐng)見(jiàn)下文)和下一個(gè)狀態(tài)作為輸出。

狀態(tài)(State):狀態(tài)是代理自行發(fā)現(xiàn)的、具體且直接的情況,包括:特定的地點(diǎn)、時(shí)刻、以及將代理與其他重要事物相關(guān)聯(lián)的瞬時(shí)配置。例如:一個(gè)棋盤在某個(gè)特定時(shí)刻的棋子布局。

獎(jiǎng)勵(lì)(Reward):獎(jiǎng)勵(lì)是一種反饋,我們可以據(jù)此衡量代理在給定狀態(tài)下各種動(dòng)作的成敗。例如:在下棋游戲中,吃掉對(duì)手的象這一重要的動(dòng)作會(huì)得到某種獎(jiǎng)勵(lì),而贏得整個(gè)游戲則會(huì)獲得更大的獎(jiǎng)勵(lì)。負(fù)獎(jiǎng)勵(lì)(Negative rewards)有著相反的含義,例如:下輸了一盤棋。

折扣因子(Discount factor):折扣因子是一個(gè)乘數(shù)。由代理發(fā)現(xiàn)的未來(lái)獎(jiǎng)勵(lì)乘以該因子,以減弱此類獎(jiǎng)勵(lì)針對(duì)代理當(dāng)前動(dòng)作選擇的累積影響。這是強(qiáng)化學(xué)習(xí)的核心,也就是通過(guò)逐漸降低未來(lái)獎(jiǎng)勵(lì)的值,以便對(duì)最近的動(dòng)作給予更多的權(quán)值。這對(duì)于基于“延遲動(dòng)作(delayed action)”原理的范式而言,是至關(guān)重要的。

策略(Policy):它是代理用來(lái)根據(jù)當(dāng)前狀態(tài)確定下一步動(dòng)作的策略。它能夠?qū)⒉煌臓顟B(tài)映射到各種動(dòng)作上,以承諾最高的獎(jiǎng)勵(lì)。

值(Value):它被定義為在特定的策略下,當(dāng)前狀態(tài)帶有折扣的長(zhǎng)期預(yù)期獎(jiǎng)勵(lì)(并非短期獎(jiǎng)勵(lì))。

Q值(Q-value)或動(dòng)作值(action-value):與“值”的不同之處在于,Q值需要一個(gè)額外的參數(shù),也就是當(dāng)前的動(dòng)作。它是指一個(gè)動(dòng)作在特定的策略下,由當(dāng)前狀態(tài)產(chǎn)生的長(zhǎng)期獎(jiǎng)勵(lì)。

常見(jiàn)的數(shù)學(xué)(算法)框架 在解決強(qiáng)化學(xué)習(xí)的相關(guān)問(wèn)題時(shí),我們經(jīng)常會(huì)用到如下的數(shù)學(xué)框架: 馬爾可夫決策過(guò)程(Markov Decision Process,MDP):幾乎所有的強(qiáng)化學(xué)習(xí)問(wèn)題都可以被構(gòu)造為MDP。MDP中的所有狀態(tài)都具有“馬爾可夫”屬性,即:未來(lái)僅取決于當(dāng)前狀態(tài),而非狀態(tài)的歷史,這一事實(shí)。 Bellman方程(Bellman Equations):它是一組將值函數(shù)分解為即時(shí)獎(jiǎng)勵(lì)加上折扣未來(lái)值的方程。 動(dòng)態(tài)編程(Dynamic Programming,DP):如果當(dāng)系統(tǒng)模型(代理+環(huán)境)完全已知時(shí),根據(jù)Bellman方程,我們就可以使用動(dòng)態(tài)編程,來(lái)迭代評(píng)估值函數(shù),并改進(jìn)相應(yīng)的策略。

值迭代(Value iteration):這是一種算法,它通過(guò)迭代式地改進(jìn)對(duì)于值的估計(jì),以計(jì)算出具有最佳狀態(tài)值的函數(shù)。該算法先將值函數(shù)初始化為任意隨機(jī)值,然后重復(fù)更新Q值和值函數(shù)的各個(gè)值,直到它們收斂為止。

策略迭代(Policy iteration):由于代理僅關(guān)注尋找最優(yōu)的策略,而最優(yōu)策略有時(shí)會(huì)在價(jià)值函數(shù)之前就已經(jīng)收斂了。因此,策略迭代不應(yīng)該重復(fù)地改進(jìn)值函數(shù)的估算,而需要在每一步上重新定義策略,并根據(jù)新的策略去計(jì)算出值來(lái),直到策略收斂為止。 Q學(xué)習(xí)(Q-learning):作為一種無(wú)模型(model-free)學(xué)習(xí)算法的示例,它并不會(huì)假定代理對(duì)于狀態(tài)的轉(zhuǎn)換和獎(jiǎng)勵(lì)模型已經(jīng)了如指掌,而是“認(rèn)為”代理將通過(guò)反復(fù)的試驗(yàn),來(lái)發(fā)現(xiàn)正確的動(dòng)作。因此,Q學(xué)習(xí)的基本思想是:在代理與環(huán)境交互過(guò)程中,通過(guò)觀察Q值函數(shù)的樣本,以接近“狀態(tài)-動(dòng)作對(duì)(state-action pairs)”的Q函數(shù)。這種方法也被稱為時(shí)分學(xué)習(xí)(Time-Difference Learning)。

上圖是一個(gè)通過(guò)Q學(xué)習(xí)(即:嘗試和錯(cuò)誤觀察),來(lái)解決強(qiáng)化學(xué)習(xí)問(wèn)題的示例(請(qǐng)參見(jiàn)-- https://gym.openai.com/envs/MountainCar-v0)。在示例所處環(huán)境中,動(dòng)力學(xué)和模型,即運(yùn)動(dòng)的整體物理原理,都是未知的。 Q學(xué)習(xí)所存在的問(wèn)題 Q學(xué)習(xí)是解決強(qiáng)化學(xué)習(xí)相關(guān)問(wèn)題的一種簡(jiǎn)單而強(qiáng)大的方法。從理論上講,我們可以在不引入其他數(shù)學(xué)復(fù)雜性的情況下,將其延伸到各種大而復(fù)雜的問(wèn)題上。其實(shí),Q學(xué)習(xí)可以借助遞歸方程來(lái)完成,其中: Q(s,a):Q值函數(shù) s:狀態(tài) s',s'':未來(lái)狀態(tài) a:動(dòng)作 γ:折現(xiàn)率 對(duì)于小的問(wèn)題,我們可以從對(duì)所有的Q值(Q-values)做出任意假設(shè)開(kāi)始,通過(guò)反復(fù)的試驗(yàn),Q表(Q-table)不斷得以更新,進(jìn)而讓政策逐漸趨于一致。由于更新和選擇動(dòng)作是隨機(jī)執(zhí)行的,因此最優(yōu)的策略可能并不代表全局最優(yōu),但它可以被用于所有實(shí)際的目的。 不過(guò),隨著問(wèn)題規(guī)模的增加,針對(duì)某個(gè)大問(wèn)題所構(gòu)造并存儲(chǔ)一組Q表,將很快成為一個(gè)計(jì)算性的難題。例如:在象棋或圍棋之類的游戲中,可能的狀態(tài)數(shù)(即移動(dòng)的順序)與玩家需要提前計(jì)算的步數(shù),成指數(shù)式的增長(zhǎng)。因此:

保存和更新該表所需的內(nèi)存量,將隨著狀態(tài)數(shù)的增加而增多。

探索每個(gè)狀態(tài),進(jìn)而創(chuàng)建Q表所需的時(shí)間,將變得無(wú)法預(yù)知。

針對(duì)上述問(wèn)題,我們需要用到諸如深度Q學(xué)習(xí)(Deep-Q learning)之類的技術(shù),并使用機(jī)器學(xué)習(xí)來(lái)試著解決。 深度Q學(xué)習(xí) 顧名思義,深度Q學(xué)習(xí)不再維護(hù)一張大型的Q值表,而是利用神經(jīng)網(wǎng)絡(luò)從給定的動(dòng)作和狀態(tài)輸入中去接近Q值函數(shù)。在一些公式中,作為輸入的狀態(tài)已經(jīng)被給出,而所有可能的動(dòng)作Q值都作為輸出被產(chǎn)生。此處的神經(jīng)網(wǎng)絡(luò)被稱為Deep-Q–Network(DQN),其基本思想如下圖所示:

圖片來(lái)源:在Python中使用OpenAI Gym進(jìn)行深度Q學(xué)習(xí)的入門(請(qǐng)參見(jiàn)--https://www.analyticsvidhya.com/blog/2019/04/introduction-deep-q-learning-python/)不過(guò)DQN在使用的時(shí)候有一定的難度。而在傳統(tǒng)的深度學(xué)習(xí)算法中,由于我們對(duì)輸入樣本進(jìn)行了隨機(jī)化處理,因此輸入的類別在各種訓(xùn)練批次之間,都是非常均衡且穩(wěn)定的。在強(qiáng)化學(xué)習(xí)中,搜索會(huì)在探索階段(exploration phase)不斷被改進(jìn),進(jìn)而不斷地更改輸入和動(dòng)作的空間。此外,隨著系統(tǒng)逐漸加深對(duì)于環(huán)境的了解,Q的目標(biāo)值也會(huì)自動(dòng)被更新。簡(jiǎn)而言之,對(duì)于簡(jiǎn)單的DQN系統(tǒng)而言,輸入和輸出都是經(jīng)常變化的。 為了解決該問(wèn)題,DQN引入了體驗(yàn)重播(experience replay)和目標(biāo)網(wǎng)絡(luò)(target network)的概念來(lái)減緩變化,進(jìn)而以受控且穩(wěn)定的方式逐步學(xué)習(xí)Q表。 其中,體驗(yàn)重播在特定的緩沖區(qū)中存儲(chǔ)一定量的狀態(tài)動(dòng)作獎(jiǎng)勵(lì)值(例如,最后有一百萬(wàn)個(gè))。而對(duì)于Q函數(shù)的訓(xùn)練,它使用來(lái)自緩沖區(qū)的隨機(jī)樣本的小批量來(lái)完成。因此,訓(xùn)練樣本不但是隨機(jī)的,并且能夠表現(xiàn)得更接近傳統(tǒng)深度學(xué)習(xí)中監(jiān)督學(xué)習(xí)的典型情況。這有點(diǎn)類似于系統(tǒng)具有高效的短期記憶,我們?cè)谔剿魑粗h(huán)境時(shí)可以用到它。 此外,DQN通常使用兩個(gè)網(wǎng)絡(luò)來(lái)存儲(chǔ)Q值。一個(gè)網(wǎng)絡(luò)不斷被更新,而另一個(gè)網(wǎng)絡(luò)(即:目標(biāo)網(wǎng)絡(luò))與第一個(gè)網(wǎng)絡(luò)以固定的間隔進(jìn)行同步。我們使用目標(biāo)網(wǎng)絡(luò)來(lái)檢索Q值,以保證目標(biāo)值的變化波動(dòng)較小。 深度強(qiáng)化學(xué)習(xí)的實(shí)際應(yīng)用 進(jìn)行Atari游戲 成立于2010年的DeepMind(請(qǐng)參見(jiàn)--https://deepmind.com/)是一家位于倫敦的初創(chuàng)公司。該公司于2014年被Google的母公司Alphabet所收購(gòu),并成功地將卷積神經(jīng)網(wǎng)絡(luò)(CNN)和Q學(xué)習(xí)結(jié)合起來(lái)用于訓(xùn)練。它為深度強(qiáng)化學(xué)習(xí)領(lǐng)域做出了開(kāi)拓性貢獻(xiàn)。例如:某個(gè)代理可以通過(guò)原始像素的輸入(如某些感知信號(hào)),來(lái)進(jìn)行Atari游戲。欲知詳情,請(qǐng)參見(jiàn)--https://deepmind.com/research/publications/playing-atari-deep-reinforcement-learning)

圖片來(lái)源:DeepMind在arXiV上有關(guān)Atari的文章(2013年)(請(qǐng)參見(jiàn)--https://arxiv.org/pdf/1312.5602v1.pdf)。Alpha Go和Alpha Go Zero 3000多年前起源于中國(guó)的圍棋,憑借著其復(fù)雜性,被稱為AI最具挑戰(zhàn)性的經(jīng)典游戲。標(biāo)準(zhǔn)的AI處理方法是:使用搜索樹(shù)(search tree)來(lái)測(cè)試所有可能的移動(dòng)和位置。但是,AI無(wú)法處理大量棋子的可能性移動(dòng),或評(píng)估每個(gè)可能性棋盤位置的強(qiáng)度。 借助深度強(qiáng)化學(xué)習(xí)的技術(shù)和新穎的搜索算法,DeepMind開(kāi)發(fā)了AlphaGo,這是第一個(gè)擊敗了人類職業(yè)圍棋選手的計(jì)算機(jī)程序,第一個(gè)擊敗了圍棋世界冠軍的程序,也可以說(shuō)是歷史上最強(qiáng)的圍棋選手。

圖片來(lái)源:https://medium.com/point-nine-news/what-does-alphago-vs-8dadec65aafAlpha Go的升級(jí)版本被稱為Alpha Go Zero。該系統(tǒng)源于一個(gè)對(duì)圍棋規(guī)則一無(wú)所知的神經(jīng)網(wǎng)絡(luò)。該神經(jīng)網(wǎng)絡(luò)通過(guò)與功能強(qiáng)大的搜索算法相結(jié)合,不斷和自己下棋,與自己進(jìn)行對(duì)抗。在重復(fù)進(jìn)行游戲的過(guò)程中,神經(jīng)網(wǎng)絡(luò)會(huì)通過(guò)持續(xù)調(diào)整和更新,來(lái)預(yù)測(cè)下棋的步驟,并最終成為游戲的贏家。通過(guò)不斷的迭代,升級(jí)后的神經(jīng)網(wǎng)絡(luò)與搜索算法重新組合,以提升系統(tǒng)的性能,并不斷提高與自己對(duì)弈的水平。

圖片來(lái)源:從零開(kāi)始的Alpha Go Zero(請(qǐng)參見(jiàn)--https://deepmind.com/blog/article/alphago-zero-starting-scratch)在石油和天然氣行業(yè)中的應(yīng)用 荷蘭皇家殼牌公司一直在其勘探和鉆探工作中通過(guò)強(qiáng)化學(xué)習(xí)的部署,以降低高昂的天然氣開(kāi)采成本,并改善整個(gè)供應(yīng)鏈中的多個(gè)環(huán)節(jié)。那些經(jīng)過(guò)了歷史鉆探數(shù)據(jù)訓(xùn)練的深度學(xué)習(xí)算法,以及基于物理學(xué)的高級(jí)模擬技術(shù),讓天然氣鉆頭在穿過(guò)地表后,能夠智能地移動(dòng)。深度強(qiáng)化學(xué)習(xí)技術(shù)還能夠?qū)崟r(shí)地利用來(lái)自鉆頭的機(jī)械數(shù)據(jù)(如:壓力和鉆頭的溫度),以及地表下的地震勘測(cè)數(shù)據(jù)。欲知詳情,請(qǐng)參見(jiàn)--https://www.forbes.com/sites/bernardmarr/2019/01/18/the-incredible-ways-shell-uses-artificial-intelligence-to-help-transform-the-oil-and-gas-giant/#187951c42701。 自動(dòng)駕駛 雖然不是主流應(yīng)用,但是深度強(qiáng)化學(xué)習(xí)在自動(dòng)駕駛汽車的各種挑戰(zhàn)性問(wèn)題上,也發(fā)揮著巨大的潛力。其中包括:

車輛控制

坡道合并

個(gè)人駕駛風(fēng)格的感知

針對(duì)安全超車的多目標(biāo)強(qiáng)化學(xué)習(xí)

欲知詳情,請(qǐng)參見(jiàn)-- https://arxiv.org/pdf/1901.01536.pdf。 總結(jié) 深度增強(qiáng)學(xué)習(xí)是真正可擴(kuò)展的通用人工智能(Artificial general intelligence,AGI),是AI系統(tǒng)的最終發(fā)展方向。在實(shí)際應(yīng)用中,它催生了諸如Alpha Go之類的智能代理,實(shí)現(xiàn)了自行從零開(kāi)始學(xué)習(xí)游戲規(guī)則(也就是人們常說(shuō)的:外部世界的法則),而無(wú)需進(jìn)行明確的訓(xùn)練和基于規(guī)則的編程。我們樂(lè)觀地認(rèn)為,深度增強(qiáng)學(xué)習(xí)的未來(lái)和前景將是一片光明。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 算法
    +關(guān)注

    關(guān)注

    23

    文章

    4710

    瀏覽量

    95403
  • 強(qiáng)化學(xué)習(xí)

    關(guān)注

    4

    文章

    269

    瀏覽量

    11604

原文標(biāo)題:你該知道的深度強(qiáng)化學(xué)習(xí)相關(guān)知識(shí)

文章出處:【微信號(hào):vision263com,微信公眾號(hào):新機(jī)器視覺(jué)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    NVIDIA Isaac Lab可用環(huán)境與強(qiáng)化學(xué)習(xí)腳本使用指南

    Lab 是一個(gè)適用于機(jī)器人學(xué)習(xí)的開(kāi)源模塊化框架,其模塊化高保真仿真適用于各種訓(xùn)練環(huán)境,Isaac Lab 同時(shí)支持模仿學(xué)習(xí)(模仿人類)和強(qiáng)化學(xué)習(xí)(在嘗試和錯(cuò)誤中進(jìn)行學(xué)習(xí)),為所有機(jī)器
    的頭像 發(fā)表于 07-14 15:29 ?561次閱讀
    NVIDIA Isaac Lab可用環(huán)境與<b class='flag-5'>強(qiáng)化學(xué)習(xí)</b>腳本使用指南

    虛擬電廠跨境協(xié)同:EMS光儲(chǔ)協(xié)同系統(tǒng)如何用1秒響應(yīng)替代歐洲人工調(diào)度?

    虛擬同步機(jī)(VSG)技術(shù)、深度強(qiáng)化學(xué)習(xí)(DRL)動(dòng)態(tài)優(yōu)化算法及區(qū)塊鏈賦能的跨境協(xié)同機(jī)制,實(shí)現(xiàn)電網(wǎng)頻率波動(dòng)抑制(±0.1Hz)、新能源消納率提升(≥95%)與防連鎖故障控制。實(shí)證表明:在西班牙1.2GW風(fēng)電場(chǎng)復(fù)現(xiàn)測(cè)試中,該平臺(tái)成功阻斷振蕩擴(kuò)散,為全球能源轉(zhuǎn)型提供技術(shù)
    的頭像 發(fā)表于 06-03 16:47 ?224次閱讀
    虛擬電廠跨境協(xié)同:EMS光儲(chǔ)協(xié)同系統(tǒng)如何用1秒響應(yīng)替代歐洲人工調(diào)度?

    半導(dǎo)體芯片廠零宕機(jī)革命:EMS 3.0智慧能源管理系統(tǒng)如何將電壓暫降抑制至±0.1%?

    易允恒 安科瑞電氣股份有限公司 摘要 隨著可再生能源滲透率持續(xù)提升,電網(wǎng)穩(wěn)定性與消納能力面臨嚴(yán)峻挑戰(zhàn)。本文以安科瑞EMS 3.0光儲(chǔ)協(xié)同平臺(tái)為核心,提出分層優(yōu)化控制架構(gòu),通過(guò)虛擬同步機(jī)技術(shù)、深度強(qiáng)化學(xué)習(xí)
    的頭像 發(fā)表于 05-30 16:39 ?245次閱讀
    半導(dǎo)體芯片廠零宕機(jī)革命:EMS 3.0智慧能源管理系統(tǒng)如何將電壓暫降抑制至±0.1%?

    18個(gè)常用的強(qiáng)化學(xué)習(xí)算法整理:從基礎(chǔ)方法到高級(jí)模型的理論技術(shù)與代碼實(shí)現(xiàn)

    本來(lái)轉(zhuǎn)自:DeepHubIMBA本文系統(tǒng)講解從基本強(qiáng)化學(xué)習(xí)方法到高級(jí)技術(shù)(如PPO、A3C、PlaNet等)的實(shí)現(xiàn)原理與編碼過(guò)程,旨在通過(guò)理論結(jié)合代碼的方式,構(gòu)建對(duì)強(qiáng)化學(xué)習(xí)算法的全面理解。為確保內(nèi)容
    的頭像 發(fā)表于 04-23 13:22 ?414次閱讀
    18個(gè)常用的<b class='flag-5'>強(qiáng)化學(xué)習(xí)</b>算法整理:從基礎(chǔ)方法到高級(jí)模型的理論技術(shù)與代碼實(shí)現(xiàn)

    Xyber-Edge?(小腦控制器)解析

    、優(yōu)化動(dòng)作軌跡并實(shí)現(xiàn)高精度運(yùn)動(dòng)控制。以下是其技術(shù)特點(diǎn)、應(yīng)用場(chǎng)景及行業(yè)意義的詳細(xì)分析: 一、核心功能與技術(shù)特點(diǎn) 實(shí)時(shí)運(yùn)動(dòng)控制與動(dòng)態(tài)優(yōu)化 Xyber-Edge通過(guò)整合多模態(tài)傳感器數(shù)據(jù)(如關(guān)節(jié)角度、力矩、視覺(jué)反饋),結(jié)合深度強(qiáng)化學(xué)習(xí)算法,動(dòng)態(tài)調(diào)整機(jī)器人運(yùn)動(dòng)參數(shù)。例如,在
    的頭像 發(fā)表于 03-27 18:49 ?960次閱讀

    詳解RAD端到端強(qiáng)化學(xué)習(xí)后訓(xùn)練范式

    受限于算力和數(shù)據(jù),大語(yǔ)言模型預(yù)訓(xùn)練的 scalinglaw 已經(jīng)趨近于極限。DeepSeekR1/OpenAl01通過(guò)強(qiáng)化學(xué)習(xí)后訓(xùn)練涌現(xiàn)了強(qiáng)大的推理能力,掀起新一輪技術(shù)革新。
    的頭像 發(fā)表于 02-25 14:06 ?600次閱讀
    詳解RAD端到端<b class='flag-5'>強(qiáng)化學(xué)習(xí)</b>后訓(xùn)練范式

    淺談適用規(guī)模充電站的深度學(xué)習(xí)有序充電策略

    深度強(qiáng)化學(xué)習(xí)能夠有效計(jì)及電動(dòng)汽車出行模式和充電需求的不確定性,實(shí)現(xiàn)充電場(chǎng)站充電成本化的目標(biāo)。通過(guò)對(duì)電動(dòng)汽車泊車時(shí)間和充電需求特征進(jìn)行提取,建立適用于大規(guī)模電動(dòng)汽車有序充電的馬爾可夫決策過(guò)程模型,并
    的頭像 發(fā)表于 02-08 15:00 ?540次閱讀
    淺談適用規(guī)模充電站的<b class='flag-5'>深度</b><b class='flag-5'>學(xué)習(xí)</b>有序充電策略

    螞蟻集團(tuán)收購(gòu)邊塞科技,吳翼出任強(qiáng)化學(xué)習(xí)實(shí)驗(yàn)室首席科學(xué)家

    近日,專注于模型賽道的初創(chuàng)企業(yè)邊塞科技宣布被螞蟻集團(tuán)收購(gòu)。據(jù)悉,此次交易完成后,邊塞科技將保持獨(dú)立運(yùn)營(yíng),而原投資人已全部退出。 與此同時(shí),螞蟻集團(tuán)近期宣布成立強(qiáng)化學(xué)習(xí)實(shí)驗(yàn)室,旨在推動(dòng)大模型強(qiáng)化學(xué)習(xí)
    的頭像 發(fā)表于 11-22 11:14 ?1586次閱讀

    NPU在深度學(xué)習(xí)中的應(yīng)用

    隨著人工智能技術(shù)的飛速發(fā)展,深度學(xué)習(xí)作為其核心驅(qū)動(dòng)力之一,已經(jīng)在眾多領(lǐng)域展現(xiàn)出了巨大的潛力和價(jià)值。NPU(Neural Processing Unit,神經(jīng)網(wǎng)絡(luò)處理單元)是專門為深度學(xué)習(xí)
    的頭像 發(fā)表于 11-14 15:17 ?1918次閱讀

    淺談適用于大規(guī)模充電場(chǎng)站的深度強(qiáng)化學(xué)習(xí)有序充電策略

    隨著新能源汽車銷量的快速增長(zhǎng),大規(guī)模充電場(chǎng)站的建設(shè)需求日益凸顯。據(jù)乘聯(lián)會(huì)銷量數(shù)據(jù)顯示,2017年中國(guó)新能源乘用車銷量達(dá)到了57.6萬(wàn)臺(tái),位列全球,且保持著較高的增長(zhǎng)率。中國(guó)汽車工業(yè)協(xié)會(huì)預(yù)計(jì),2018年新能源汽車銷量將超過(guò)100萬(wàn)輛。然而,大規(guī)模充電場(chǎng)站面臨著諸多挑戰(zhàn)。
    的頭像 發(fā)表于 11-13 10:55 ?662次閱讀
    淺談適用于大規(guī)模充電場(chǎng)站的<b class='flag-5'>深度</b><b class='flag-5'>強(qiáng)化學(xué)習(xí)</b>有序充電策略

    如何使用 PyTorch 進(jìn)行強(qiáng)化學(xué)習(xí)

    強(qiáng)化學(xué)習(xí)(Reinforcement Learning, RL)是一種機(jī)器學(xué)習(xí)方法,它通過(guò)與環(huán)境的交互來(lái)學(xué)習(xí)如何做出決策,以最大化累積獎(jiǎng)勵(lì)。PyTorch 是一個(gè)流行的開(kāi)源機(jī)器學(xué)習(xí)庫(kù),
    的頭像 發(fā)表于 11-05 17:34 ?1043次閱讀

    GPU深度學(xué)習(xí)應(yīng)用案例

    GPU在深度學(xué)習(xí)中的應(yīng)用廣泛且重要,以下是一些GPU深度學(xué)習(xí)應(yīng)用案例: 一、圖像識(shí)別 圖像識(shí)別是深度學(xué)習(xí)
    的頭像 發(fā)表于 10-27 11:13 ?1381次閱讀

    AI大模型與深度學(xué)習(xí)的關(guān)系

    AI大模型與深度學(xué)習(xí)之間存在著密不可分的關(guān)系,它們互為促進(jìn),相輔相成。以下是對(duì)兩者關(guān)系的介紹: 一、深度學(xué)習(xí)是AI大模型的基礎(chǔ) 技術(shù)支撐 :深度
    的頭像 發(fā)表于 10-23 15:25 ?2898次閱讀

    谷歌AlphaChip強(qiáng)化學(xué)習(xí)工具發(fā)布,聯(lián)發(fā)科天璣芯片率先采用

    近日,谷歌在芯片設(shè)計(jì)領(lǐng)域取得了重要突破,詳細(xì)介紹了其用于芯片設(shè)計(jì)布局的強(qiáng)化學(xué)習(xí)方法,并將該模型命名為“AlphaChip”。據(jù)悉,AlphaChip有望顯著加速芯片布局規(guī)劃的設(shè)計(jì)流程,并幫助芯片在性能、功耗和面積方面實(shí)現(xiàn)更優(yōu)表現(xiàn)。
    的頭像 發(fā)表于 09-30 16:16 ?705次閱讀

    虛擬電廠如何優(yōu)化調(diào)度電動(dòng)汽車充電

    基于深度強(qiáng)化學(xué)習(xí)的交互式調(diào)度框架,以虛擬電廠內(nèi)電動(dòng)汽車用戶的總效益。虛擬電廠控制平臺(tái)作為智能體決策電動(dòng)汽車個(gè)體的充放電動(dòng)作,無(wú)需掌握個(gè)體詳細(xì)模型,而是通過(guò)與區(qū)域電網(wǎng)環(huán)境的交互,不斷學(xué)習(xí)和更新動(dòng)作策略,從而克服集中式優(yōu)化方法的局限
    的頭像 發(fā)表于 09-27 16:36 ?740次閱讀
    虛擬電廠如何優(yōu)化調(diào)度電動(dòng)汽車充電