完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>
標(biāo)簽 > 強化學(xué)習(xí)
文章:225個 瀏覽:11548次 帖子:1個
DeepMind開源了一個內(nèi)部強化學(xué)習(xí)庫TRFL
TRFL庫包含實現(xiàn)經(jīng)典RL算法以及更前沿技術(shù)的許多函數(shù)。這里提供的損失函數(shù)和其他操作是在純TensorFlow中實現(xiàn)的。它們不是完整的算法,而是在構(gòu)建功...
2018-10-19 標(biāo)簽:智能體強化學(xué)習(xí)DeepMind 5246 0
基于強化學(xué)習(xí)的自動駕駛預(yù)測控制技術(shù)
隨著外部傳感、運動規(guī)劃和車輛控制等方面取得顯著的成果,自動駕駛汽車的自主創(chuàng)新能夠很好地幫助車輛在預(yù)先設(shè)定的場景下獨立運行。
2018-10-08 標(biāo)簽:自動駕駛強化學(xué)習(xí) 6730 0
南大AI用分層強化學(xué)習(xí),一天時間單機訓(xùn)練擊敗《星際爭霸2》內(nèi)置AI
并且在以往的研究中,重點往往放在對游戲局部信息的處理上,主要分為微操和宏操。例如在游戲開局前,預(yù)先設(shè)定好雙方兵力的數(shù)量,只需對這些兵力進行把控,便可取得...
2018-09-28 標(biāo)簽:AI強化學(xué)習(xí) 1.0萬 0
在AI技術(shù)的幫助下,讓滑翔機學(xué)會這項非凡的本事
在我們可以真正使用AI控制的熱氣流滑翔機進行實際應(yīng)用之前,還有很多工作要做。這只是鳥類輔助自身飛行的氣流中的一種。換句話說:僅僅因為AI可以駕馭熱氣流,...
2018-10-04 標(biāo)簽:AI機器學(xué)習(xí)強化學(xué)習(xí) 2484 0
一種能和OpenAI gym相比的環(huán)境,用來訓(xùn)練Unity模擬器中的Donkey Car
Donkey Car是一種為模型車開源的DIY自動駕駛平臺,它利用一個帶有相機的樹莓派單片機,讓模型車可在賽道上自動駕駛,Donkey Car會學(xué)習(xí)你的...
2018-09-16 標(biāo)簽:計算機視覺自動駕駛強化學(xué)習(xí) 7537 0
用PopArt進行多任務(wù)深度強化學(xué)習(xí)
按照以往的做法,如果研究人員要用強化學(xué)習(xí)算法對獎勵進行剪枝,以此克服獎勵范圍各不相同的問題,他們首先會把大的獎勵設(shè)為+1,小的獎勵為-1,然后對預(yù)期獎勵...
2018-09-16 標(biāo)簽:人工智能智能體強化學(xué)習(xí) 5983 0
AutoML模型壓縮技術(shù),利用強化學(xué)習(xí)將壓縮流程自動化
“Cloud AutoML 產(chǎn)品設(shè)計讓機器學(xué)習(xí)的過程變得更簡單,讓即便沒有機器學(xué)習(xí)經(jīng)驗的人也可以享受機器學(xué)習(xí)帶來的益處。盡管AutoML有很大的進步,這...
2018-09-24 標(biāo)簽:神經(jīng)網(wǎng)絡(luò)機器學(xué)習(xí)強化學(xué)習(xí) 5504 0
基于目標(biāo)圖像的視覺強化學(xué)習(xí)算法,讓機器人可以同時學(xué)習(xí)多個任務(wù)
強化學(xué)習(xí)是一種訓(xùn)練主體最大化獎勵的學(xué)習(xí)機制,對于目標(biāo)條件下的強化學(xué)習(xí)來說可以將獎勵函數(shù)設(shè)為當(dāng)前狀態(tài)與目標(biāo)狀態(tài)之間距離的反比函數(shù),那么最大化獎勵就對應(yīng)著最...
2018-09-24 標(biāo)簽:機器人算法強化學(xué)習(xí) 7306 0
在強化學(xué)習(xí)的表示空間中引入規(guī)劃能力的思路
在涉及計算路徑的每一個步驟(不管是在r-空間還是在s-空間),我們都可以使用范圍廣泛的技術(shù),包括基于優(yōu)化的技術(shù)(TrajOpt),基于搜索的技術(shù)(RRT...
2018-09-06 標(biāo)簽:神經(jīng)網(wǎng)絡(luò)機器翻譯強化學(xué)習(xí) 2778 0
直接的強化學(xué)習(xí)方法很有吸引力,它無需過多假設(shè),而且能自動掌握很多技能。由于這種方法除了建立函數(shù)無需其他信息,所以很容易在改進后的環(huán)境中重新學(xué)習(xí)技能,例如...
2018-09-05 標(biāo)簽:神經(jīng)網(wǎng)絡(luò)機械臂強化學(xué)習(xí) 1.0萬 0
基于TensorFlow的開源強化學(xué)習(xí)框架 Dopamine
對于新的研究人員來說,能夠根據(jù)既定方法快速對其想法進行基準(zhǔn)測試非常重要。因此,我們?yōu)?Arcade 學(xué)習(xí)環(huán)境支持的 60 個游戲提供四個智能體的完整培訓(xùn)...
2018-08-31 標(biāo)簽:智能體強化學(xué)習(xí)TensorFlow 5136 0
盤點新一代人工智能領(lǐng)域十大最具成長性技術(shù)
近日,中國電子學(xué)會依據(jù)國家出臺的《新一代人工智能發(fā)展規(guī)劃》、《促進新一代人工智能產(chǎn)業(yè)發(fā)展三年行動計劃(2018-2020年)》等一系列政策規(guī)劃。
2018-08-29 標(biāo)簽:神經(jīng)網(wǎng)絡(luò)人工智能強化學(xué)習(xí) 3756 0
使用新的機器學(xué)習(xí)技術(shù), 通過減少治療膠質(zhì)母細(xì)胞瘤過程中毒性化療和放療的劑量
然而,研究人員還必須確保該模型不僅僅為了最大療效而給出最大的劑量。任何時候模型選擇給予全部劑量時,它就會受到懲罰,因此它會選擇更少、更小的劑量。 “如果...
2018-08-24 標(biāo)簽:模型機器學(xué)習(xí)強化學(xué)習(xí) 2789 0
強化學(xué)習(xí)和監(jiān)督式學(xué)習(xí), 非監(jiān)督式學(xué)習(xí)的區(qū)別
而這時,強化學(xué)習(xí)會在沒有任何標(biāo)簽的情況下,通過先嘗試做出一些行為得到一個結(jié)果,通過這個結(jié)果是對還是錯的反饋,調(diào)整之前的行為,就這樣不斷的調(diào)整,算法能夠?qū)W...
2018-08-21 標(biāo)簽:機器學(xué)習(xí)強化學(xué)習(xí) 2.1萬 0
強化學(xué)習(xí)“好奇心”模型:訓(xùn)練無需外部獎勵,全靠自己
我們的思路是,將內(nèi)在獎勵表示為預(yù)測agent在當(dāng)前狀態(tài)下的行為后果時出現(xiàn)的錯誤,即agent學(xué)習(xí)的前向動態(tài)的預(yù)測誤差。我們徹底調(diào)查了54種環(huán)境中基于動力...
2018-08-20 標(biāo)簽:agent強化學(xué)習(xí) 1.2萬 0
分類問題訓(xùn)練的GAP-CNN在目標(biāo)定位方面的能力
在最早提出GAP層的網(wǎng)中網(wǎng)(Network in Network)架構(gòu)中,最后的最大池化層的輸出傳入GAP層,GAP層生成一個向量,向量的每一項表示分類...
2018-08-20 標(biāo)簽:神經(jīng)網(wǎng)絡(luò)圖像分類強化學(xué)習(xí) 7592 0
強化學(xué)習(xí)環(huán)境研究,智能體玩游戲為什么厲害
強化學(xué)習(xí)作為一種常用的訓(xùn)練智能體的方法,能夠完成很多復(fù)雜的任務(wù)。在強化學(xué)習(xí)中,智能體的策略是通過將獎勵函數(shù)最大化訓(xùn)練的。獎勵在智能體之外,各個環(huán)境中的獎...
2018-08-18 標(biāo)簽:智能體強化學(xué)習(xí) 3900 0
虛擬到現(xiàn)實的翻譯網(wǎng)絡(luò)如何滿足自動駕駛要求?
虛擬到現(xiàn)實的翻譯網(wǎng)絡(luò),可以將虛擬駕駛模擬器中生成的虛擬場景翻譯成真實場景,來進行強化學(xué)習(xí)訓(xùn)練。
2018-08-16 標(biāo)簽:自動駕駛強化學(xué)習(xí) 5243 0
可微圖像參數(shù)表示邀請我們提出了這樣一個問題:“反向傳播通過的是什么樣的圖像生成過程?”答案是相當(dāng)多樣的過程,其中一些奇異的可能性,可以創(chuàng)造多種多樣的有趣...
2018-08-16 標(biāo)簽:神經(jīng)網(wǎng)絡(luò)圖像強化學(xué)習(xí) 4067 0
一種利用強化學(xué)習(xí)來設(shè)計mobile CNN模型的自動神經(jīng)結(jié)構(gòu)搜索方法
具體來說,我們提出一種用于設(shè)計移動端的CNN模型的自動神經(jīng)結(jié)構(gòu)搜索方法,稱之為Platform-Aware神經(jīng)結(jié)構(gòu)搜索。圖1是Platform-Awar...
2018-08-07 標(biāo)簽:神經(jīng)網(wǎng)絡(luò)數(shù)據(jù)集強化學(xué)習(xí) 4083 0
編輯推薦廠商產(chǎn)品技術(shù)軟件/工具OS/語言教程專題
電機控制 | DSP | 氮化鎵 | 功率放大器 | ChatGPT | 自動駕駛 | TI | 瑞薩電子 |
BLDC | PLC | 碳化硅 | 二極管 | OpenAI | 元宇宙 | 安森美 | ADI |
無刷電機 | FOC | IGBT | 逆變器 | 文心一言 | 5G | 英飛凌 | 羅姆 |
直流電機 | PID | MOSFET | 傳感器 | 人工智能 | 物聯(lián)網(wǎng) | NXP | 賽靈思 |
步進電機 | SPWM | 充電樁 | IPM | 機器視覺 | 無人機 | 三菱電機 | ST |
伺服電機 | SVPWM | 光伏發(fā)電 | UPS | AR | 智能電網(wǎng) | 國民技術(shù) | Microchip |
Arduino | BeagleBone | 樹莓派 | STM32 | MSP430 | EFM32 | ARM mbed | EDA |
示波器 | LPC | imx8 | PSoC | Altium Designer | Allegro | Mentor | Pads |
OrCAD | Cadence | AutoCAD | 華秋DFM | Keil | MATLAB | MPLAB | Quartus |
C++ | Java | Python | JavaScript | node.js | RISC-V | verilog | Tensorflow |
Android | iOS | linux | RTOS | FreeRTOS | LiteOS | RT-THread | uCOS |
DuerOS | Brillo | Windows11 | HarmonyOS |