一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

綜述將主要總結(jié)增強(qiáng)學(xué)習(xí)的錄用論文

電子工程師 ? 來(lái)源:未知 ? 作者:李倩 ? 2018-07-31 10:21 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

由全球最大中文IT社區(qū)CSDN與全球AI技術(shù)社區(qū)AICamp共同打造的千人技術(shù)盛會(huì)——2018 AI開(kāi)發(fā)者大會(huì)將于10月25日-26日在北京舉辦。本次大會(huì)匯聚海內(nèi)外頂尖AI專家,面向全球AI開(kāi)發(fā)者和科技企業(yè),旨在搭建國(guó)際間的AI技術(shù)交流與學(xué)習(xí)平臺(tái),探索AI技術(shù)的應(yīng)用實(shí)踐與發(fā)展方向。

一年一度的國(guó)際機(jī)器學(xué)習(xí)會(huì)議( ICML ),于7月15日在瑞典斯德哥爾摩閉幕,ICML 的會(huì)議日程之緊湊,會(huì)議內(nèi)容之豐富,令人目不暇接。今年從2,473份提交論文中接收了621篇,其中有63余篇強(qiáng)化學(xué)習(xí)相關(guān)論文,作者將這些論文分成了多個(gè)類(lèi)別,并對(duì)每篇文章的核心貢獻(xiàn)做了精煉的總結(jié),這些文章也是追蹤強(qiáng)化學(xué)習(xí)最前沿技術(shù)的絕佳材料,精煉的總結(jié)也也便于我們快速查找與自己研究相關(guān)的文章。

會(huì)議概述

從2,473份提交論文中接收了621份,論文接受率為25.1%。

有關(guān)增強(qiáng)學(xué)習(xí)的會(huì)議占據(jù)了最大的會(huì)議室,而且論文數(shù)量也是最多的,這篇綜述將主要總結(jié)增強(qiáng)學(xué)習(xí)的錄用論文。

強(qiáng)化學(xué)習(xí)分類(lèi)

我將接受的所有RL論文分類(lèi)為以下主題:

強(qiáng)化學(xué)習(xí)理論(Theory)--- 8篇

強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)(Network)---3篇

強(qiáng)化學(xué)習(xí)算法(Algorithms)6篇

強(qiáng)化學(xué)習(xí)優(yōu)化(Optimization)8篇

強(qiáng)化學(xué)習(xí)探索(Exploration)4篇

強(qiáng)化學(xué)習(xí)激勵(lì)(Reward) 4篇

基于模型的強(qiáng)化學(xué)習(xí)(Model-based)5篇

分布式強(qiáng)化學(xué)習(xí)(Distributed)3篇

層次強(qiáng)化學(xué)習(xí)(Hierarchical)5篇

多智能體(Multi-agent)6篇

元學(xué)習(xí)(Meta-learning)遷移(Transfer)終身學(xué)習(xí)(Lifelong Learning) 5篇

應(yīng)用及其它(Applications)6篇

▌1. RL Theory

Problem DependentReinforcement Learning Bounds Which Can Identify Bandit Structure in MDPs-> 非標(biāo)準(zhǔn)轉(zhuǎn)換模型,學(xué)習(xí)將MPDs轉(zhuǎn)換為MACs。

Learning with Abandonment-> 非標(biāo)準(zhǔn)轉(zhuǎn)換模型,一個(gè)想要為每個(gè)用戶學(xué)習(xí)個(gè)性化策略的平臺(tái),但該平臺(tái)面臨用戶在不滿意平臺(tái)操作時(shí)放棄平臺(tái)的風(fēng)險(xiǎn)。

Global Convergence ofPolicy Gradient Methods for the Linear Quadratic Regulator-> LQR證明

More Robust Doubly RobustOff-policy Evaluation-> 通過(guò)另一個(gè)策略生成的數(shù)據(jù)來(lái)估計(jì)策略的性能。

Best Arm Identification inLinear Bandits with Linear Dimension Dependency->利用全局線性結(jié)構(gòu)來(lái)提高對(duì)接近最優(yōu)臂的獎(jiǎng)勵(lì)估計(jì)。

Convergent Tree Backup andRetrace with Function Approximation->穩(wěn)定高效的基于梯度的算法,使用二次凸凹鞍點(diǎn)公式

Time Limits inReinforcement Learning-> 正式解釋了在案例中如何有效地處理時(shí)間限制,并解釋了為什么不這樣做會(huì)引起經(jīng)驗(yàn)重復(fù)的狀態(tài)混淆和失效,導(dǎo)致次優(yōu)策略和訓(xùn)練不穩(wěn)定。對(duì)于固定期限,由于時(shí)間限制的終止實(shí)際上是環(huán)境的一部分,因此剩余時(shí)間的概念應(yīng)該作為代理輸入的一部分,以避免違反Markov屬性。

Configurable MarkovDecision Processes-> 在許多現(xiàn)實(shí)問(wèn)題中,有可能在一定程度上配置一些環(huán)境參數(shù),以提高學(xué)習(xí)代理的性能。一種新的學(xué)習(xí)算法—安全策略模型迭代(SPMI),聯(lián)合自適應(yīng)地優(yōu)化策略和環(huán)境配置。

▌2.RL Network

Structured Control Netsfor Deep Reinforcement Learning->提出的結(jié)構(gòu)化控制網(wǎng)將通用MLP分成兩個(gè)獨(dú)立的子模塊:非線性控制模塊和線性控制模塊。非線性控制用于前視和全局控制,而線性控制穩(wěn)定圍繞全局控制殘差的局部動(dòng)態(tài)

Gated Path PlanningNetworks->將VINs重構(gòu)為遞歸卷積網(wǎng)絡(luò),這表明VINs將周期性卷積與非傳統(tǒng)的最大池化激活相結(jié)合。門(mén)控循環(huán)更新方程可以緩解困擾VIN的優(yōu)化問(wèn)題。

Universal Planning Networks:Learning GeneralizableRepresentations for Visuomotor Control->這個(gè)規(guī)劃計(jì)算在一個(gè)潛在的空間中展開(kāi)一個(gè)正向模型,通過(guò)梯度下降軌跡優(yōu)化來(lái)推斷一個(gè)最優(yōu)的行動(dòng)計(jì)劃,優(yōu)化一個(gè)監(jiān)督模擬學(xué)習(xí)目標(biāo)。在解決基于圖像的目標(biāo)描述的新任務(wù)時(shí),學(xué)習(xí)到的表示還提供了使用圖像指定目標(biāo)的度量。

▌3.RL Algorithms

SBEED: ConvergentReinforcement Learning with Nonlinear Function Approximation->使用Nesterov的平滑技術(shù)和Legendre-Fenchel 變換將Bellman方程重構(gòu)為一個(gè)新的原始對(duì)偶優(yōu)化問(wèn)題,開(kāi)發(fā)一種新的算法,稱為平滑Bellman誤差嵌入,以解決這個(gè)優(yōu)化問(wèn)題可以使用任何可微函數(shù)類(lèi)。

Scalable Bilinear PiLearning Using State and Action Features->對(duì)于大規(guī)模馬爾可夫決策過(guò)程(MDP),我們研究近似線性規(guī)劃的原始對(duì)偶公式,并開(kāi)發(fā)一種可擴(kuò)展的,無(wú)模型的算法,稱為雙線性pi學(xué)習(xí),用于在提供采樣oracle時(shí)的強(qiáng)化學(xué)習(xí)。

Beyond the One-Step GreedyApproach in Reinforcement Learning->分析了多步超前策略改進(jìn)的情況;制定多步策略改進(jìn)的變體,使用這些定義推導(dǎo)出新的算法并證明它們的收斂性。

Importance WeightedTransfer of Samples in Reinforcement Learning->從一組源任務(wù)中收集的經(jīng)驗(yàn)樣本的轉(zhuǎn)移,以改進(jìn)給定目標(biāo)任務(wù)中的學(xué)習(xí)過(guò)程。提出了一種基于模型的技術(shù),該技術(shù)可以自動(dòng)評(píng)估每個(gè)源樣本的相關(guān)性(重要性權(quán)重)來(lái)解決目標(biāo)任務(wù)。

Addressing Function ApproximationError in Actor- Critic Methods->算法建立在雙Q學(xué)習(xí)的基礎(chǔ)上,通過(guò)取一對(duì)批評(píng)者之間的最小值來(lái)限制過(guò)高估計(jì);延遲策略更新以減少每次更新錯(cuò)誤。

Policy Optimization withDemonstrations->利用可用的演示,通過(guò)在已學(xué)習(xí)的策略和當(dāng)前演示之間實(shí)施占用度量匹配來(lái)指導(dǎo)探索,以實(shí)現(xiàn)隱式動(dòng)態(tài)獎(jiǎng)勵(lì)形成。

▌4.RL Optimization

Policy Optimization asWasserstein Gradient Flows->在概率度量空間上,策略優(yōu)化在分布優(yōu)化方面變?yōu)橥梗忉尀閃asserstein梯度流。

Clipped Action PolicyGradient->利用被剪裁的動(dòng)作的知識(shí)來(lái)減少估計(jì)的方差。

Fourier Policy Gradients->將期望策略梯度產(chǎn)生的積分重新整合為卷積并將其轉(zhuǎn)換為乘法。

Structured Evolution withCompact Architectures for Scalable Policy Optimization->通過(guò)使用結(jié)構(gòu)化隨機(jī)正交矩陣的梯度近似進(jìn)行黑盒優(yōu)化,提供比基線更準(zhǔn)確的估計(jì),并具有可證明的理論保證。

StochasticVariance-Reduced Policy Gradient->利用重要性權(quán)重來(lái)保持梯度估計(jì)的無(wú)偏差。

The Mirage ofAction-Dependent Baselines in Reinforcement Learning->分解了策略梯度估計(jì)量的方差,數(shù)值模擬表明,在通常測(cè)試的基準(zhǔn)域中,學(xué)習(xí)的依賴狀態(tài)動(dòng)作的基線實(shí)際上并沒(méi)有減少與狀態(tài)相關(guān)的基線的方差。

Smoothed Action ValueFunctions for Learning Gaussian Policies->一個(gè)由高斯平滑的期望Q值定義的行為值的新概念。由平滑Q值函數(shù)的梯度和Hessian可以恢復(fù)參數(shù)化高斯策略的預(yù)期獎(jiǎng)勵(lì)的梯度和協(xié)方差。在訓(xùn)練過(guò)程中學(xué)習(xí)均值和協(xié)方差的能力可以顯著提高標(biāo)準(zhǔn)連續(xù)控制基準(zhǔn)的結(jié)果。

Soft Actor-Critic:Off-Policy Maximum Entropy Deep Reinforcement Learning with a Stochastic Actor->提出了soft actor-critic,基于最大熵強(qiáng)化學(xué)習(xí)框架的非策略行動(dòng)者-評(píng)論者(actor-critic)深度RL算法。行動(dòng)者的目標(biāo)是最大化預(yù)期的回報(bào),同時(shí)也最大化熵——在任務(wù)中盡可能隨機(jī)地成功。

▌5.RL Exploration

Self-Imitation Learning->利用過(guò)去的良好經(jīng)驗(yàn)可以間接地推動(dòng)深度探索。

Coordinated Exploration inConcurrent Reinforcement Learning->強(qiáng)化學(xué)習(xí)代理團(tuán)隊(duì),該團(tuán)隊(duì)通過(guò)種子取樣,同時(shí)學(xué)習(xí)如何在一個(gè)共同的環(huán)境中操作。具有三個(gè)屬性- 適應(yīng)性,承諾和多樣性 – 是有效協(xié)調(diào)探索所必需的。

GEP-PG: DecouplingExploration and Exploitation in Deep Reinforcement Learning Algorithms->依次結(jié)合目標(biāo)探索過(guò)程和DDPG。兩階段方法:第一個(gè)探索階段發(fā)現(xiàn)一系列簡(jiǎn)單的策略,最大化行為多樣性,忽略獎(jiǎng)勵(lì)功能;然后是更標(biāo)準(zhǔn)的深度RL階段進(jìn)行微調(diào),其中DDPG使用重播緩沖區(qū),其中填充了GEP生成的示例。

Learning to Explore viaMeta-Policy Gradient->元策略梯度算法學(xué)習(xí)探索,使我們能夠自適應(yīng)地學(xué)習(xí)DDPG中的探索策略。訓(xùn)練不依賴于參與者策略的靈活的探索行為,從而產(chǎn)生一種全局性的探索,極大地加快了學(xué)習(xí)過(guò)程。

▌6.RL Reward

Learning byPlaying?—?Solving Sparse Reward Tasks from Scratch->計(jì)劃輔助控制(SAC-X), 代理配備了一組通用輔助任務(wù),它試圖通過(guò)非策略RL同時(shí)學(xué)習(xí)。主動(dòng)(學(xué)習(xí))調(diào)度和輔助策略的執(zhí)行允許代理有效地探索其環(huán)境 -使其在稀疏獎(jiǎng)勵(lì)RL方面表現(xiàn)優(yōu)異。

Automatic Goal Generationfor Reinforcement Learning Agents->使用生成模型(在本例中為GANs)來(lái)學(xué)習(xí)生成理想的“目標(biāo)”(狀態(tài)空間的子集),并使用生成模型而不是目標(biāo)的統(tǒng)一抽樣。使用基于生成模型的自動(dòng)課程生成算法來(lái)解決多任務(wù)問(wèn)題,該生成模型跟蹤學(xué)習(xí)代理的性能。

Learning the RewardFunction for a Misspecified Model->本文提出了一個(gè)新的誤差界限,用來(lái)解釋從模型中采樣的狀態(tài)下獎(jiǎng)勵(lì)模型的行為。該界限用于擴(kuò)展現(xiàn)有的幻覺(jué)DAgger-MC算法,該算法在確定性的MDPs中提供了理論性能保證,而不是假設(shè)一個(gè)完美的模型可以被學(xué)習(xí)。

Mix & Match?—?AgentCurricula for Reinforcement Learning->一個(gè)自動(dòng)形成代理課程的程序;通過(guò)有效地從簡(jiǎn)單的代理中找到解決方案開(kāi)始,逐步訓(xùn)練更復(fù)雜的代理;

▌7.Model-based RL

Lipschitz Continuity inModel-based Reinforcement Learning->提供了一個(gè)新的邊界,在這個(gè)邊界上,我們用Wasserstein度量來(lái)量化Lipschitz模型的多步預(yù)測(cè)誤差。

ProgrammaticallyInterpretable Reinforcement Learning->生成可解釋和可驗(yàn)證的代理策略,可編程的解釋性強(qiáng)化學(xué)習(xí)使用一種高級(jí)的、特定于域的編程語(yǔ)言來(lái)表示策略。神經(jīng)導(dǎo)向的程序搜索通過(guò)首先學(xué)習(xí)使用DRL的神經(jīng)策略網(wǎng)絡(luò),然后對(duì)程序策略執(zhí)行局部搜索,以盡量減少與神經(jīng)“oracle”之間的距離。

Feedback-Based Tree Searchfor Reinforcement Learning-> 提出了一種基于模型的強(qiáng)化學(xué)習(xí)技術(shù),該技術(shù)迭代地將MCTS應(yīng)用于原始的無(wú)限大范圍的馬爾可夫決策過(guò)程中。MCTS過(guò)程生成的建議隨后作為反饋提供,以便通過(guò)分類(lèi)和回歸改進(jìn)下一個(gè)迭代的葉子節(jié)點(diǎn)評(píng)估程序。多玩家在線戰(zhàn)斗競(jìng)技場(chǎng)(MOBA)游戲之王的競(jìng)爭(zhēng)代理。

Machine Theory of Mind->Theory of Mind(ToM)廣泛地指人類(lèi)表達(dá)他人心理狀態(tài)的能力, 包括他們的欲望,信仰和意圖。ToMnet使用元學(xué)習(xí)來(lái)學(xué)習(xí)代理人未來(lái)行為的強(qiáng)大先驗(yàn)?zāi)P?,并且僅使用少量的行為觀察,可以引導(dǎo)到更豐富的關(guān)于代理特征和心理狀態(tài)的預(yù)測(cè)。

Measuring abstractreasoning in neural networks->提出一個(gè)數(shù)據(jù)集和挑戰(zhàn),旨在探索抽象推理,靈感來(lái)自一個(gè)著名的人類(lèi)智商測(cè)試。為了在這一挑戰(zhàn)中取得成功,模型必須應(yīng)對(duì)訓(xùn)練和測(cè)試數(shù)據(jù)以明確定義的方式存在差異的各種歸納“機(jī)制”。提出WildRelation Network(WReN),多次應(yīng)用關(guān)系網(wǎng)絡(luò)模塊(Santoro et al., 2017)來(lái)推斷小組間關(guān)系。

▌8.Distributed RL

Implicit Quantile Networksfor Distributional Reinforcement Learning->使用分位數(shù)回歸來(lái)近似風(fēng)險(xiǎn)敏感策略的狀態(tài)-行為回報(bào)分布的完全分位數(shù)函數(shù);展示了57款A(yù)tari2600游戲的改進(jìn)性能。

RLlib: Abstractions forDistributed Reinforcement Learning->開(kāi)源Ray項(xiàng)目中的一個(gè)庫(kù),為RL提供可擴(kuò)展的軟件基元,該庫(kù)主張通過(guò)自頂向下的層次控制調(diào)整算法,以組合的方式分布RL組件,從而在短期運(yùn)行的計(jì)算任務(wù)中封裝并行性和資源需求。

IMPALA: ScalableDistributed Deep-RL with Importance Weighted Actor-Learner Architectures->IMPALA(重要性加權(quán)行動(dòng)者學(xué)習(xí)者架構(gòu))可擴(kuò)展到數(shù)千臺(tái)機(jī)器而不會(huì)犧牲數(shù)據(jù) 效率或資源利用率; 通過(guò)將解耦作用和學(xué)習(xí)與一種新的非策略修正方法V-trace相結(jié)合,實(shí)現(xiàn)高吞吐量下的穩(wěn)定學(xué)習(xí)。在DMLab-30(DeepMind Lab環(huán)境中的30個(gè)任務(wù)集(Beattie et al., 2016))和Atari-57 (Arcade Learningenvironment中所有可用的Atari游戲(Bellemare et al., 2013a)上進(jìn)行測(cè)試)。

▌9.Hierarchical RL

Latent Space Policies forHierarchical Reinforcement Learning->以自下而上的分層方式構(gòu)建層次表示;每一層都經(jīng)過(guò)訓(xùn)練,通過(guò)最大熵目標(biāo)來(lái)完成任務(wù)。每一層都增加了潛在隨機(jī)變量,這些變量是從該層訓(xùn)練期間的先驗(yàn)分布中抽取的。最大熵目標(biāo)使這些潛在變量被納入到層的策略中,高層可以通過(guò)這個(gè)潛在空間直接控制下層的行為。

Self-Consistent TrajectoryAutoencoder: Hierarchical Reinforcement Learning with Trajectory Embeddings->層次結(jié)構(gòu)中學(xué)習(xí)較低層的問(wèn)題轉(zhuǎn)化為學(xué)習(xí)軌跡級(jí)生成模型的問(wèn)題。學(xué)習(xí)軌跡的連續(xù)潛在表示,這有效地解決了時(shí)間擴(kuò)展和多階段的問(wèn)題。他的模型通過(guò)預(yù)測(cè)閉環(huán)策略行為的結(jié)果,提供了一個(gè)內(nèi)置的預(yù)測(cè)機(jī)制。

An Inference-Based PolicyGradient Method for Learning Options->為了使用選項(xiàng)自動(dòng)學(xué)習(xí)策略,所提出的算法使用推理方法來(lái)同時(shí)改進(jìn)代理可用的所有選項(xiàng),因此可以以非策略方式使用,而無(wú)需觀察選項(xiàng)標(biāo)簽。所采用的可微差別推理過(guò)程產(chǎn)生了易于解釋的選項(xiàng)。

Hierarchical Imitation andReinforcement Learning->分層指導(dǎo)利用底層問(wèn)題的層次結(jié)構(gòu)來(lái)整合不同的專家交互模式。在Montezuma’sRevenge上測(cè)試過(guò)。

Using Reward Machines forHigh-Level Task Specification and Decomposition in Reinforcement Learning->獎(jiǎng)勵(lì)機(jī)器是一種有限狀態(tài)機(jī),支持獎(jiǎng)勵(lì)函數(shù)的規(guī)范,同時(shí)將獎(jiǎng)勵(lì)函數(shù)結(jié)構(gòu)暴露給學(xué)習(xí)者并支持分解。提出了獎(jiǎng)勵(lì)機(jī)器的Q-Learning(QRM),一種適當(dāng)分解獎(jiǎng)勵(lì)機(jī)制的算法,并利用off-policy Q-Learning同時(shí)學(xué)習(xí)不同組件的子策略。

▌10.Multi-Agent

Learning to Coordinatewith Coordination Graphs in Repeated Single-Stage Multi-Agent Decision Problems->利用松散耦合,即代理之間的條件獨(dú)立性。預(yù)期獎(jiǎng)勵(lì)可以表示為協(xié)調(diào)圖。

Learning to Act inDecentralized Partially Observable MDPs->首先接近最優(yōu)的協(xié)作多智能體,通過(guò)混合整數(shù)線性規(guī)劃替換貪婪最大化。來(lái)自文獻(xiàn)的許多有限域的實(shí)驗(yàn)。

Learning PolicyRepresentations in Multiagent Systems->將代理建模作為表示學(xué)習(xí)的問(wèn)題;構(gòu)建模仿學(xué)習(xí)和代理識(shí)別啟發(fā)的新目標(biāo),設(shè)計(jì)一種代理策略表示的無(wú)監(jiān)督學(xué)習(xí)算法。

Competitive Multi-agentInverse Reinforcement Learning with Sub-optimal Demonstrations->當(dāng)已知專家證明不是最優(yōu)的時(shí)候,在零和隨機(jī)博弈中進(jìn)行逆強(qiáng)化學(xué)習(xí); 引入了一種新的目標(biāo)函數(shù),直接將專家與納什均衡策略對(duì)立起來(lái),以深度神經(jīng)網(wǎng)絡(luò)作為模型逼近,在逆強(qiáng)化學(xué)習(xí)的背景下求解獎(jiǎng)勵(lì)函數(shù)。

▌11.RL Meta-learning, Transfer, Continuing and Lifelong Learning

Been There, Done That:Meta-Learning with Episodic Recall->提出了一種生成開(kāi)放但重復(fù)的環(huán)境的形式主義,然后開(kāi)發(fā)一個(gè)元學(xué)習(xí)體系結(jié)構(gòu)來(lái)解決這些環(huán)境。該架構(gòu)將標(biāo)準(zhǔn)的LSTM工作記憶與可微的神經(jīng)情景記憶融合在一起。

Transfer in Deep RL usingSuccessor Features in GPI->使用通用的策略改進(jìn)和繼承特性來(lái)進(jìn)行傳輸技能。以兩種方式擴(kuò)展SF和GPI框架。使用獎(jiǎng)勵(lì)函數(shù)本身作為未來(lái)任務(wù)的特性,沒(méi)有任何表達(dá)性的損失,因此無(wú)需預(yù)先指定一組特性。

Policy and Value Transferin Lifelong Reinforcement Learning->使用先前的經(jīng)驗(yàn),在一系列從任務(wù)分配中抽取的任務(wù)實(shí)例中引導(dǎo)終身學(xué)習(xí)。對(duì)于基于值函數(shù)的傳輸,保留PAC的值函數(shù)初始化方法,同時(shí)最小化兩種學(xué)習(xí)算法所需的學(xué)習(xí),從而產(chǎn)生MaxQInit。

State Abstractions forLifelong Reinforcement Learning->在終身強(qiáng)化學(xué)習(xí)中,代理必須有效地跨任務(wù)傳遞知識(shí),同時(shí)解決探索,信用分配和一般問(wèn)題。狀態(tài)抽象壓縮代理使用的表示,從而減少了學(xué)習(xí)的計(jì)算和統(tǒng)計(jì)負(fù)擔(dān)。提出新的抽象類(lèi):(1)傳遞狀態(tài)抽象,其最優(yōu)形式可以被有效地計(jì)算,以及(2)PAC狀態(tài)抽象,保證相對(duì)于任務(wù)的分布。

Continual ReinforcementLearning with Complex Synapses->通過(guò)為表格和深層強(qiáng)化學(xué)習(xí)代理配備合并了一種生物復(fù)雜性的突觸模型(Benna & Fusi,2016),災(zāi)難性遺忘可以在多個(gè)時(shí)間尺度上得到緩解。整合過(guò)程與數(shù)據(jù)分布變化的時(shí)間尺度無(wú)關(guān)。

▌12.RL Applications and others

Spotlight: OptimizingDevice Placement for Training Deep Neural Networks->使用多階段馬爾可夫決策過(guò)程來(lái)模擬設(shè)備布局問(wèn)題。

End-to-end Active ObjectTracking via Reinforcement Learning->ConvNet-LSTM函數(shù)逼近器用于直接幀到動(dòng)作的預(yù)測(cè)。需要用獎(jiǎng)勵(lì)函數(shù)來(lái)增強(qiáng)環(huán)境。

Deep ReinforcementLearning in Continuous Action Spaces: a Case Study in the Game of SimulatedCurling->基于內(nèi)核的MonteCarlo樹(shù)搜索學(xué)習(xí)游戲策略,該搜索在連續(xù)空間內(nèi)查找動(dòng)作。為了避免手工特征,我們使用監(jiān)督學(xué)習(xí)來(lái)訓(xùn)練我們的網(wǎng)絡(luò),然后使用高保真的冰壺奧林匹克運(yùn)動(dòng)模擬器進(jìn)行強(qiáng)化學(xué)習(xí);贏得了國(guó)際數(shù)字冰壺比賽。

Can Deep ReinforcementLearning Solve Erdos- Selfridge-Spencer Games?->介紹了一個(gè)有趣的雙人零和游戲系列,具有可調(diào)的復(fù)雜性,稱為Erdos-Selfridge-Spencer游戲,作為RL的一個(gè)新域。作者報(bào)告了大量的實(shí)證結(jié)果,使用了各種各樣的訓(xùn)練方法,包括監(jiān)督學(xué)習(xí)和多種RL (PPO, A2C,DQN)以及 單代理 與多代理訓(xùn)練。

Investigating Human Priorsfor Playing Video Games->調(diào)查各種有助于人類(lèi)學(xué)習(xí)的先驗(yàn)知識(shí),并發(fā)現(xiàn)對(duì)象的一般先驗(yàn)在指導(dǎo)人類(lèi)游戲玩法中起著最關(guān)鍵的作用。

Visualizing andUnderstanding Atari Agents->介紹一種生成有用的顯著性地圖的方法,并使用它來(lái)顯示1)強(qiáng)代理關(guān)注什么,2)代理是否出于正確或錯(cuò)誤的原因做出決策,3)代理如何在學(xué)習(xí)過(guò)程中進(jìn)化。

總結(jié)

深度強(qiáng)化學(xué)習(xí)是最大和最熱門(mén)的話題之一,有著最多的論文數(shù)量和最大的會(huì)議場(chǎng)地。

除了訓(xùn)練算法,學(xué)習(xí)模型,信用分配,分層次,元學(xué)習(xí)和網(wǎng)絡(luò)架構(gòu)是RL流行的子方向。

考慮到網(wǎng)絡(luò)架構(gòu)上關(guān)于視覺(jué)問(wèn)題的論文數(shù)量,對(duì)于RL在網(wǎng)絡(luò)架構(gòu)上的探索還有很大的空間,在已被接受的論文中只有少數(shù)是這一方面的。例如,StructuredControl Nets for Deep Reinforcement Learning and Gated Path Planning Networks。

ML的公平性和可解釋性是一個(gè)大主題。對(duì)于RL也應(yīng)該有更多的解釋和分析工作。一個(gè)好的方向是運(yùn)用控制理論。與此相關(guān)的是,BenRecth的《控制優(yōu)化教程》非常棒。主要思想是RL與控制理論之間應(yīng)該有更多的交叉。在已被接受的論文中,一個(gè)很好的例子是Structured ControlNets for Deep Reinforcement Learning。

附最佳論文總結(jié)

▌兩篇最佳論文(best papers)

1.“Obfuscated Gradients Give a False Sense of Security: Circumventing Defenses to Adversarial Examples”

[注]:也就是這篇在年初曾引起軒然大波,一作Anish Athalye質(zhì)疑ICLR2018中的7/8篇對(duì)抗防御的論文太渣,并引起Goodfellow圍追堵截要說(shuō)法。Anish Athalye這篇打臉I(yè)CLR的文章在ICML上證明了自己的實(shí)力。

相關(guān)閱讀:

https://zhuanlan.zhihu.com/p/33554466

混淆梯度, 是一種梯度掩蔽,在防御對(duì)抗的例子中導(dǎo)致一種錯(cuò)誤的安全感。

ICLR 2018的白盒安全防御系統(tǒng),9種當(dāng)中的7種防御系統(tǒng)依賴于混淆梯度。

對(duì)于發(fā)現(xiàn)的三種類(lèi)型的混淆梯度中的每一種,作者都開(kāi)發(fā)了攻擊技術(shù)來(lái)克服它。

在每篇論文所考慮的原始威脅模型中,新的攻擊成功地完全繞過(guò)了6種,只有一個(gè)是部分繞過(guò)。

2.“DelayedImpact of Fair Machine Learning”

訓(xùn)練以盡量減少預(yù)測(cè)誤差的機(jī)器學(xué)習(xí)系統(tǒng), 往往會(huì)表現(xiàn)出基于種族和性別等敏感特征的歧視性行為。原因之一可能是由于數(shù)據(jù)中存在歷史偏差。

這項(xiàng)工作使機(jī)器學(xué)習(xí)的決策與長(zhǎng)期的社會(huì)福利目標(biāo)保持一致。

下圖顯示了作者提出的結(jié)果模型, 以減輕機(jī)器學(xué)習(xí)算法的不良社會(huì)影響。

依賴于群體的閾值可能面臨法律挑戰(zhàn),不可避免的是,它們錯(cuò)失了固定閾值決策可能引發(fā)的差異結(jié)果。

公平約束(Fairnessconstraints)使群體之間的決策相等,以保護(hù)弱勢(shì)群體。但是,公平約束也會(huì)減少已經(jīng)處于不利地位的人群的福利。

構(gòu)建一個(gè)精確的模型來(lái)預(yù)測(cè)決策對(duì)人口結(jié)果的影響,可能有助于減輕應(yīng)用公平約束(fairness constraints)的潛在危害。

▌三篇最佳論文提名獎(jiǎng)(Best Papers Runner-ups)

1. “The Mechanics of n-Player Differentiable Games”

開(kāi)發(fā)新的技術(shù)來(lái)理解和控制一般游戲的動(dòng)力學(xué),例如GAN

關(guān)鍵的結(jié)果是將二階動(dòng)力學(xué)分解為兩個(gè)分量:

第一個(gè)是與潛在的游戲有關(guān),它會(huì)降低隱函數(shù)的梯度下降;

第二個(gè)與哈密頓博弈(Hamiltonian games)有關(guān),哈密頓博弈是一種遵守守恒定律的新游戲,類(lèi)似于經(jīng)典機(jī)械系統(tǒng)中的守恒定律。

分解激發(fā)了Symplecti梯度調(diào)整(SGA),這是一種新的算法,用于在一般游戲中尋找穩(wěn)定的定點(diǎn)。

基本實(shí)驗(yàn)表明,SGA與最近提出的在GANs中找到穩(wěn)定的固定點(diǎn)的算法相比是有競(jìng)爭(zhēng)力的,同時(shí)在更多普通的游戲中也適用,并且有保證。

2. “Near Optimal Frequent Directions for Sketching Dense and SparseMatrices”

復(fù)旦大學(xué)的論文Near Optimal Frequent Directions forSketching Dense and Sparse Matrices十分引人注目,這篇斬獲“最佳提名獎(jiǎng)”的論文由大數(shù)據(jù)學(xué)院副教授黃增峰獨(dú)立完成,研究的是流模型(streaming model)中的協(xié)方差情況。文章提出了一種新型空間優(yōu)化算法,把流模型運(yùn)行時(shí)間縮短到極致。

計(jì)算一個(gè)比給定的大矩陣小得多的草圖矩陣,使協(xié)方差誤差最小化。

我們考慮了流模型中存在的問(wèn)題,該算法在有限的工作空間下只能對(duì)輸入進(jìn)行一次傳遞。

Liberty(2013)及其變體的Frequent Directions算法實(shí)現(xiàn)了最佳的空間誤差權(quán)衡。 但是,是否可以改善運(yùn)行時(shí)間仍然是一個(gè)懸而未決的問(wèn)題。

在本文中,我們幾乎解決了這個(gè)問(wèn)題的時(shí)間復(fù)雜度。 特別是,我們提供新的空間優(yōu)化算法,運(yùn)行時(shí)間更短。 此外,我們還證明了算法的運(yùn)行時(shí)間幾乎是最優(yōu)的,除非矩陣乘法的最先進(jìn)的運(yùn)行時(shí)間可以顯著提高。

3. “Fairness Without Demographics in Repeated Loss Minimization”

最小化平均損失導(dǎo)致表示差異 - 少數(shù)群體(例如,非母語(yǔ)人士)對(duì)訓(xùn)練目標(biāo)貢獻(xiàn)較少,因此往往遭受更大的損失。由于模型的準(zhǔn)確性會(huì)影響用戶保留率,少數(shù)群體的數(shù)目會(huì)隨著時(shí)間的推移而縮小。

作者指出,經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化(ERM)隨著時(shí)間的推移會(huì)擴(kuò)大表征差異,這甚至?xí)棺畛醯墓侥P妥兊貌还健?/p>

開(kāi)發(fā)一種基于分布魯棒優(yōu)化(DRO)的方法,該方法將經(jīng)驗(yàn)分布附近所有分布的最壞情況風(fēng)險(xiǎn)最小化。

演示了DRO在ERM失敗的示例上防止差異放大,并展示了在真實(shí)文本自動(dòng)完成任務(wù)中少數(shù)群體用戶滿意度的改進(jìn)。

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴

原文標(biāo)題:【ICML2018】63篇強(qiáng)化學(xué)習(xí)論文全解讀

文章出處:【微信號(hào):rgznai100,微信公眾號(hào):rgznai100】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    深度學(xué)習(xí)低光圖像增強(qiáng)綜述(譯)

    論文原文地址:https://arxiv.org/abs/2104.10729v1 github:https://github.com/Li-Chongyi
    的頭像 發(fā)表于 07-03 14:43 ?5169次閱讀
    深度<b class='flag-5'>學(xué)習(xí)</b>低光圖像<b class='flag-5'>增強(qiáng)</b><b class='flag-5'>綜述</b>(譯)

    ei源刊檢索發(fā)表,ei收錄論文檢索審稿見(jiàn)刊,加急錄用ei期刊目錄

    ei源刊檢索發(fā)表,ei收錄論文檢索審稿見(jiàn)刊,加急錄用ei期刊目錄王老師電話:*** QQ:2853127116 郵箱:2853127116@qq.comEI是工程索引 創(chuàng)刊于1884, 是工程技術(shù)
    發(fā)表于 01-21 16:45

    Batch Normalization論文及原理總結(jié)

    【原理】Batch Normalization 論文及原理總結(jié)
    發(fā)表于 06-12 08:51

    關(guān)于無(wú)線傳感器網(wǎng)絡(luò)硬件設(shè)計(jì)綜述,總結(jié)的太棒了

    關(guān)于無(wú)線傳感器網(wǎng)絡(luò)硬件設(shè)計(jì)綜述總結(jié)的太棒了
    發(fā)表于 05-28 06:52

    有關(guān)負(fù)荷預(yù)測(cè)的綜述總結(jié)

    對(duì)前面三篇關(guān)于負(fù)荷預(yù)測(cè)的綜述論文進(jìn)行一個(gè)總結(jié)。
    發(fā)表于 07-12 08:09

    論文俱樂(lè)部 | 壓縮算法團(tuán)隊(duì):我們是如何開(kāi)展對(duì)壓縮算法的學(xué)習(xí)

    ,技術(shù)大咖指導(dǎo)、面向?qū)θ珖?guó)開(kāi)發(fā)者規(guī)模性推廣技術(shù)類(lèi)/指導(dǎo)類(lèi)書(shū)籍出版、名企就業(yè)橄欖枝等福利讓我們義無(wú)反顧選擇投入到 OpenHarmony 成長(zhǎng)計(jì)劃啃論文俱樂(lè)部活動(dòng)中,在經(jīng)歷了三個(gè)多月的學(xué)習(xí)之后,我們團(tuán)隊(duì)總結(jié)
    發(fā)表于 06-21 11:05

    機(jī)器學(xué)習(xí)論文簡(jiǎn)析

    人工智能和機(jī)器學(xué)習(xí)領(lǐng)域的學(xué)術(shù)論文汗牛充棟。每年的各大頂級(jí)會(huì)議、研討班錄用好幾千篇論文,即便是親臨現(xiàn)場(chǎng)也很難追蹤到所有的前沿信息。在時(shí)間精力有限的情況下,選擇精讀哪些
    發(fā)表于 09-30 13:21 ?0次下載

    WSDM精選論文分析機(jī)器學(xué)習(xí)

    人工智能和機(jī)器學(xué)習(xí)領(lǐng)域的學(xué)術(shù)論文汗牛充棟。每年的各大頂級(jí)會(huì)議、研討班錄用好幾千篇論文,即便是親臨現(xiàn)場(chǎng)也很難追蹤到所有的前沿信息。在時(shí)間精力有限的情況下,選擇精讀哪些
    發(fā)表于 09-30 14:29 ?0次下載

    ICLR 2019在官網(wǎng)公布了最佳論文獎(jiǎng)!

    今年 ICLR 共接收 1578 篇投稿,相較去年 981 篇有了很大的增加,錄用結(jié)果如下:1.5% 錄用為 oral 論文(24 篇)、30.2% 錄用為 poster
    的頭像 發(fā)表于 05-07 09:00 ?4743次閱讀
    ICLR 2019在官網(wǎng)公布了最佳<b class='flag-5'>論文</b>獎(jiǎng)!

    62篇論文入選十年來(lái)最難CVPR,商湯研究再創(chuàng)佳績(jī)

    根據(jù)官方數(shù)據(jù),本屆CVPR大會(huì)共收到6656篇投稿,接收論文1470篇,錄用率約22%,低于ICCV 2019論文錄用率(25%),為十年以來(lái)CVPR
    的頭像 發(fā)表于 05-12 14:42 ?2860次閱讀

    基于多視圖協(xié)作學(xué)習(xí)的人崗匹配研究論文提要

    投稿,其中錄用論文193篇,錄取率約為21%。 而在眾多論文當(dāng)中,一篇BOSS直聘和中國(guó)人民大學(xué)聯(lián)合發(fā)表的基于多視圖協(xié)作學(xué)習(xí)的人崗匹配研究吸引了我們的注意力。
    的頭像 發(fā)表于 11-05 09:32 ?2360次閱讀

    基于Motif結(jié)構(gòu)信息的網(wǎng)絡(luò)表示學(xué)習(xí)綜述

    基于Motif結(jié)構(gòu)信息的網(wǎng)絡(luò)表示學(xué)習(xí)綜述
    發(fā)表于 06-07 14:51 ?2次下載

    基于機(jī)器學(xué)習(xí)的哈希檢索算法綜述

    基于機(jī)器學(xué)習(xí)的哈希檢索算法綜述
    發(fā)表于 06-10 11:05 ?5次下載

    嵌入式系統(tǒng)論文總結(jié)

    嵌入式系統(tǒng)論文總結(jié)(嵌入式開(kāi)發(fā)用什么編程語(yǔ)言)-該文檔為嵌入式系統(tǒng)論文總結(jié)文檔,是一份很不錯(cuò)的參考資料,具有較高參考價(jià)值,感興趣的可以下載看看………………
    發(fā)表于 07-30 10:19 ?8次下載
    嵌入式系統(tǒng)<b class='flag-5'>論文</b><b class='flag-5'>總結(jié)</b>

    深度學(xué)習(xí):transformers的近期工作成果綜述

    transformers的近期工作成果綜述 基于 transformer 的雙向編碼器表示(BERT)和微軟的圖靈自然語(yǔ)言生成(T-NLG)等模型已經(jīng)在機(jī)器學(xué)習(xí)世界中廣泛的用于自然語(yǔ)言處理(NLP
    的頭像 發(fā)表于 10-19 10:04 ?957次閱讀
    深度<b class='flag-5'>學(xué)習(xí)</b>:transformers的近期工作成果<b class='flag-5'>綜述</b>