rl与深度学习_DeepMind的惊人混合与匹配RL技术

rl与深度学习＃1研究论文解释混合搭配-强化学习的代理课程[ arxiv ]如今使用的强化学习技术非常快速，并且使用基于梯度的策略优化，可以在不那么复杂的环境中立即获得结果。基于渐变的策略是竞争性的而不是协作的。那么，如果对于需要执行具有复杂任务的代理的更加复杂的环境，我们需要长期的结果，该怎么办？在许多世界环境中，我们无法修改环境，并且无法在现实世界中执行...

dfsgwe1231

347人浏览 · 2018-06-07 16:18:46

dfsgwe1231 · 2018-06-07 16:18:46 发布

rl与深度学习

＃1研究论文解释

混合搭配-强化学习的代理课程[ arxiv ]

如今使用的强化学习技术非常快速，并且使用基于梯度的策略优化，可以在不那么复杂的环境中立即获得结果。

基于渐变的策略是竞争性的而不是协作的。

那么，如果对于需要执行具有复杂任务的代理的更加复杂的环境，我们需要长期的结果，该怎么办？

在许多世界环境中，我们无法修改环境，并且无法在现实世界中执行强化学习非常耗时。因此为了解决这个问题，本文试图在课程学习和人口基础培训的帮助下解决这个问题。

在你开始前

课程学习[ 论文 ]

使用转移学习设计一个任务序列，以便代理进行培训，以提高最终性能或学习速度。

基于人口的神经网络培训[ DeepMind Blog ]

PBT可以在训练时修改网络的超参数。

主要思想

Mix＆Match论文背后的主要思想是

生成RL代理的多种变体，其中我们没有能力根据培训复杂性来修改安排的任务，而只能使用一种MIX＆MATCH代理，该MIX＆MATCH代理是通过根据策略生成过程利用结构上不同的不同代理来构造的。

MIX和MATCH框架

按学习复杂性排列的多个代理（如上所示）被视为一个混合策略的混合与匹配代理。

知识转移 （即蒸馏）的完成方式是使复杂的代理人与较早的代理人相匹配。

控制混合系数 ，以便最终使用复杂的目标代理来产生经验。

方法细节

假设我们给了一个可训练代理1序列（ 具有相应的策略π1，…，πK，每个参数都带有一些可以共享某些参数的θi⊂θ ）

目的是训练πK，同时所有剩余的智能体都在那儿诱导更快/更轻松的学习。

让我们介绍一下分类随机变量' c'〜Cat（1，…，K |α） 概率质量函数p（c = i）=αi ）
给定时间的政策：

混合匹配的目的是允许课程学习，因此我们需要c的概率质量函数（pmf）随时间变化。最初，pmf应该具有α1 = 1，并且在训练即将结束时αK = 1，因此允许制定从简单π1到目标πK的政策课程。

现在，应该以这种方式进行培训，以最大程度地长期提高性能，并与这些梯度不同地一起共享知识。

为了解决此问题，我们将使用类似于蒸馏的成本（D） ，它将策略统一在一起。

我们考虑的最终优化问题只是原始L ^ RL 损失（如下）的加权和，应用于控制策略π^ mm和知识转移损失：

现在，让我们在步骤→中了解混合匹配架构→

政策混合

为了减少差异，策略混合将通过显式混合来完成。

知识传输

为简单起见，我们考虑K = 2的情况。考虑确保最终策略（π2）与更简单的策略（π1）匹配，同时可以访问控制策略中的样本（πmm ）的问题 。

为简单起见，我们直接定义轨迹的M＆M损失 ，并从控制策略中采样轨迹（s∈S） 。引入了1-α项，因此当我们切换到π2时，蒸馏成本就消失了。

通过训练调整α（alpha）

α是总体质量函数方程（第一方程）中使用的变量。

所提出的方法的重要组成部分是如何通过时间设置α值。为简单起见，让我们再次考虑K = 2的情况，其中一个只需要一个α（因为c现在来自伯努利分布），我们
视为时间t的函数。

在线超参数调整→由于α随时间变化，因此无法使用典型的超参数调整技术，因为可能值的空间在时间步长上呈指数关系（α=（α（1），···，α（T））∈4 Tk− 1，
其中4 k表示ak维单形）。

为了解决此问题，我们使用了基于人口的培训 （PBT）。

基于人口的培训和M＆M

基于人口的训练 （PBT）保持大量经过并行训练的代理，以便在训练时通过时间优化超参数，并定期相互查询以检查他们相对于他人的表现如何。性能不佳的代理会复制更强的代理的权重（神经网络参数），并对它们的超参数进行本地修改。

PBT在整个训练过程中修改超参数的能力使发现强大的自适应策略（例如自动调整的学习速率退火计划）成为可能 。

这样，性能较差的代理将用于探索超参数空间。

因此，我们需要定义两个功能 →

评估→衡量当前特工的实力

浏览 →定义如何激发超参数。

注意：请记住，PBT代理是MIX＆MATCH代理，它已经是组成代理的混合物。

现在，根据我们感兴趣的问题的特征，我们应该使用下面提到的两种方案之一。

如果通过从简单模型切换到更复杂的模型来提高模型的性能，则

a）为评估提供混合政策的绩效（即，奖励k集）。

b）对于α的探索功能，我们随机添加或减去一个固定值（在0和1之间截断）。因此，一旦切换到更复杂的设备具有显着的好处-PBT将自动执行。

2.通常，我们通常希望从不受约束的体系结构切换到某些特定的，受严重约束的体系结构（在这种体系结构中，切换可能不会带来明显的性能优势）。

当从构成单任务策略训练多任务策略时，我们可以使eval成为独立的评估工作，该评估工作仅查看具有αK = 1的代理的性能。

这样，我们可以直接针对感兴趣模型的最终性能进行优化，但要以PBT需要额外评估为代价。

实验内容

让我们测试并分析我们的新M＆M方法在所有情况下是否都能正常工作。现在，我们将考虑3套强化学习实验，这些实验可以扩展到大型复杂的操作空间，代理架构的复杂性和学习多任务策略。

在所有过程中，我们将α初始化为0左右，并通过
时间。

注意 →即使在实验部分中我们使用K = 2，实际的课程也会通过π1和π2混合而潜在地无限次遍历。

除非另有说明，否则评估函数将返回控制策略最近30集的平均奖励。

DeepMind Lab的环境套件为RL代理提供了一系列具有挑战性的3D，基于第一人称视角的任务（请参阅附录）。代理可以60 fps的速度感知基于96×72像素的RGB观察结果，并且可以移动，旋转，跳转和标记内置机器人 。

1.课程超过所使用的动作

动作空间是复杂的，以6维向量表示，其中两个动作组具有很高的分辨率（ 旋转和向上/向下动作 ），其余四个是低分辨率动作（ 向前，向后或根本不移动，射击或不射击等） ）。

在这里，我们用9个行动来构建π1，简单的策略（小动作空间）。

与使用对角高斯分布的连续控制研究相似，我们使用因式分解策略π2（a 1，a 2，…，a 6 | s）：= j = 1 π̂ j（aj | s），我们称之为大行动空间。

为了能够混合这两个策略，我们将π1动作映射到π2的动作空间中的对应策略上。

代理网络之间的值混合如下图所示。

该论文还讨论了Shared Head和Masked KL技术，但两者都比M＆M磨损。

结果

我们看到，与大型行动空间相比，小型行动空间可加快学习速度，但会影响最终的表现。

应用于此设置的“混合与匹配”获得了两全其美的优势，学习速度很快，并且超过了大型动作空间的最终表现。

在绘制随时间变化的α时（图5左），我们看到主体在早期就完全切换到大动作空间，因此表明小动作空间仅对学习的初始阶段有用。通过查看代理商通过培训采取的行动有多不同，可以进一步确认这一点。

图5（右）显示了动作的边际分布如何随时间演变，我们看到新动作是通过训练解锁的，而且最终的分布比初始的更熵，这意味着更多的熵导致更多的稳定性。

2.关于代理架构的课程

我们用处理后的卷积信号的线性投影代替LSTM。我们共享卷积模块以及策略/价值函数预测。

实验集中于各种导航任务 。

一方面，被动策略（只能由前馈策略表示）应该合理地学习以四处移动和探索，而另一方面，需要循环网络（具有内存）以最大化最终性能。学习导航新的迷宫布局（“探索较小的对象位置”）或避免（寻找）通过迷宫探索的不成功（成功）路径。

结果

M＆M应用于LSTM和FF的过渡，导致最终性能的显着提高。但不如FF对手快。

图8导致两个观察结果

由于游戏级别的复杂性，绿色曲线切换到LSTM较晚。
如果需要，模型（蓝色曲线）可以切换回混合策略。

3.多任务课程

作为概念的最终证明，我们考虑学习能够同时解决多个RL问题的单个策略的任务。这类任务的基本方法是在混合环境中训练模型，或者等效地在多个环境中并行训练共享模型。

这种培训可能有两个缺点：

→它在很大程度上取决于奖励规模，并且会偏向
高回报的环境。

→易于训练的环境为模型提供了大量更新，因此也可能使解决方案偏向于自身。

让我们看一下结果：

一种是“ 探索小物体位置” ，它具有较高的奖励和陡峭的初始学习曲线（许多奖励信号来自收集苹果）。

在剩下的两个问题中，训练很困难，代理正在与其他漫游器以及复杂的机制进行交互（收取奖金，标记楼层等）。

多任务解决方案专注于解决导航任务，而在更具挑战性的问题上却表现较差。

为了将M＆M应用于此问题，我们在每个环境中构造一个代理
（每个人在前面的部分中充当π1），然后集中所有“多任务”代理 （前面的部分中的π2）。至关重要的是，代理共享卷积层，但具有独立的LSTM。

培训是以多任务方式完成的，但是每种环境中的控制策略仍然是特定于任务的πi（专家）和πmt（集中代理）之间的混合。

由于切换到集中式策略不再有益，因此我们使用
πmt（即中央策略）的性能作为PBT的优化标准（评估），而不是控制策略。

我们分别评估混合物和集中剂的性能。图9示出了所提出的方法的每任务性能。人们会注意到性能更加统一-

M＆M代理学会了在两个具有挑战性的激光标签环境中发挥良好的性能，同时在单个导航任务中略微牺牲了性能。

取得成功的原因之一是，知识转移是在政策空间中完成的，这对奖励规模不变。当代理商切换到使用后，仍然可以只专注于高回报的环境
只有中央政策，这种在M＆M培训中的归纳偏差可以确保更高的最低分数。

结论

随着时间的流逝，该混合物的成分权重将进行调整，以使在训练结束时，我们剩下由最复杂的药物组成的单一活性成分。也，

在复杂环境中的改进和加速性能。

代理的集合通过使用
混合政策。

可以通过共享的经验或共享的建筑元素，也可以通过类似蒸馏的KL匹配损失，在组件之间共享信息。

我每周都会发布2个帖子，所以不要错过本教程。

所以，跟随我进入Medium 和推特看到类似的帖子。

有任何意见或有任何疑问，请在评论中写下。

拍（多次）！ 分享它！ 跟着我！

乐于助人。荣誉.....

您会喜欢的以前的故事：

5分钟内解释50个TensorFlow.js API | TensorFlow.js简介表
TensorFlow API指南表 todatascience.com

TensorFlow 1.9到了！
您需要了解的所有信息……朝向datascience.com

移动上的TensorFlow：教程
在Android和iOS上，向wardsdatascience.com

激活功能：神经网络
乙状结肠，tanh，Softmax，ReLU，泄漏的ReLU说明！！！ endingdatascience.com

翻译自: https://hackernoon.com/deepminds-amazing-mix-match-rl-techique-a6f8ce6ac0b4

rl与深度学习

技术共进，成长同行——讯飞AI开发者社区

更多推荐

机器学习与人工智能

python# 创建基类# 定义一对多关系# 定义多对一关系# 定义多对多关系（通过关联表）# 关联表（用于多对多关系）SQLAlchemy ORM提供了强大而灵活的数据库操作方式，通过本文的介绍，您应该能够：安装和配置SQLAlchemy定义数据模型和关系执行基本的CRUD操作构建复杂查询管理数据库事务遵循最佳实践SQLAlchemy还有更多高级特性，如混合属性、事件监听、自定义查询等，值得进一