从认知学到进化论，详述强化学习两大最新突破（二）_百科TA说

相关文章推荐

听话的硬盘 · 拆解“硬折扣鼻祖”奥乐齐：这家德国超市何以在 ...· 2 周前 ·

魁梧的八宝粥 · 书写新时代教育绚丽篇章——教育系统牢记习近平 ...· 2 月前 ·

温文尔雅的罐头 · VSTO开发指南_百度百科· 7 月前 ·

英勇无比的红茶 · 新增地铁7号线，沈阳地铁四期建设规划生变，9 ...· 12 月前 ·

追风的机器人 · 关于举办教育部24365就业招聘服务.重庆市 ...· 1 年前 ·

“ 快速学习对慢学习的依赖并非巧合。正如我们将在下面论述的那样，它是一个基本原则，不仅适用于AI，也适用于心理学和神经科学。然而，在考虑这个一般性观点之前，我们将研究它在第二个用于快速deep RL技术 - meta-RL中的作用。

快速学习对慢学习的依赖并非巧合。正如我们将在下面论述的那样，它是一个基本原则，不仅适用于AI，也适用于心理学和神经科学。然而，在考虑这个一般性观点之前，我们将研究它在第二个用于快速deep RL技术 - meta-RL中的作用。

Meta-RL ：通过学习如何学习来加速 deep RL

如前所述，标准deep RL速度慢，除了增量更新，还有弱感应偏差。正如在偏差 - 方差权衡的概念中所描述的，快速学习要求对需要学习的模式结构要有一组合理数量的假设。假设设置得越细（窄），学习速度就越快。然而，正如前面所提到的，有一个问题：一个狭义的假设集只有在它包含正确的假设时才会提高学习速度。虽然强归纳偏置可以加速学习，但只有学习者采用的特定偏置恰好与学习材料相符合时才行。因此，这里出现了一个新的学习问题：学习者如何知道采用什么归纳偏置？

看到这个问题，很容易想到的答案是借鉴过去的经验。显然，这就是我们日常生活中的情形。例如，学习使用新的智能手机。在这种情况下，一个人过去使用智能手机和其他相关设备的经验可以用来假设新手机应该如何工作，也可以用来指导摸索手机操作。这些初始假设对应于偏差 - 方差权衡中的“偏差”，它们会影响快速学习能力。没有这些初始偏置的学习者（即具有更高的“方差”）会考虑更广泛的关于手机操作的假设，但这样就会牺牲学习速度。

利用过去的经验来加速新学习在机器学习中被称为元学习（meta-learning）。其实这个想法源于心理学，被称为“学习如何学习”。这个术语首次出现在一篇心理学研究过论文中，作者Harlow给出了一个可以很好体现这个术语的实验。在实验里，一群猴子面前放着两个它们不熟悉的物体，并允许它们拿起其中一个。

物体下面可能是食物奖励，也可能是空的。然后将两个物体再次放在猴子面前，但是位置可能左右颠倒，重复该过程6轮。然后用两个新的，猴子不熟悉的物体，并重复之前的试验6次。重复更换物体，依此类推。随着测试次数增加，猴子们能发现一个简单规则：总是有一种物体下面有食物而另一种物体没有，不管这种物体放左还是放右。因此当给它们一对新物体时，猴子只要试一次就知道应该选哪个了。这是一个关于学习如何学习的简单生动的例子。

现在回到机器学习，新的研究工作表明怎样利用元学习来加速深度学习，已经有很多方法可以实现这个思路。其中一种方法与神经科学和心理学有着特殊的联系。在这个方法里，循环神经网络在一系列相互关联的RL任务上进行训练。

网络中的权重调整非常缓慢，因此可以反应出任务中共性的内容，但不能快速更改以用于任何单个任务的解决方案。在这种情况下，循环网络的活动状态可以实现自己的RL算法，该算法基于过去任务产生的知识来快速解决每个新任务。也就是说，一个RL算法产生另一个，因此被命名为'meta-RL'。

与episodic deep RL一样，meta-RL也与快速和慢速学习之间的密切联系有关。循环网络的权重在任务之间缓慢更新，允许任务间的共性信息“内置”到循环网络的状态中。由此产生的网络状态变化实现了一种新的学习算法，可以快速解决新问题，因为慢速学习的基础过程给了它们有用的归纳偏置。这又是一次快速学习源于慢学习，并且通过慢学习实现提速。

Episodic Meta-RL

注意！我们上面讨论的两种技术并不相互排斥。实际上，最近的研究表明可以元学习（meta-learning）和情景控制（episodic control）整合起来，实现互补。在Episodic Meta-RL中，如前所述，元学习发生在循环神经网络中。叠加在其上的是情景记忆系统，其作用是恢复循环神经网络的活动模式。与episodic deep RL一样，情景记忆对一组过去事件进行编目，可以根据当前上下文查询这些事件。然而，Episodic Meta-RL不是将上下文与估值联系起来，而是将它们与来自循环网络的内部或隐藏单元的存储活动模式连接起来。这些模式很重要，因为通过meta-RL，它们总结了agent从与单个任务交互中学到的东西。在episodic meta-RL中，当agent遇到与过去类似的情况时，它会允许先前学习的信息影响当前策略。实际上，情景记忆允许系统识别先前遇到的任务，并检索存储的解决方案。

通过模拟“强盗决策”任务和导航任务，Ritter 等人发现episodic meta-RL，就像普通的meta-RL一样，学习强归纳偏置，从而使其能够快速解决新任务。更重要的是，当遇到过去类似的任务时，episodic meta-RL会立即检索并恢复之前生成的解决方案，从而无需重新学习。在第一次遇到新任务时，系统速度受益于meta-RL的快速性; 在其后遇到新任务时，系统速度受益于情景控制所赋予的一次性学习能力。

对神经科学和心理学的启示

正如我们在文章开始时所看到的那样，人们因为采样效率低下的问题而质疑deep RL与人类或其他动物学习的相似性。从心理学和神经科学的角度来看，episodic deep RL和meta-RL的一个重要含义是它们通过展示deep RL实际上速度不慢，从而消除了这种质疑。本文在一定程度上认为，deep RL是可以作为人类和动物学习的候选模型的。然而，除了这一点之外，episodic deep RL和meta-RL的细节也指向了心理学和神经科学中一些有趣的新假说。

首先是episodic deep RL。我们已经注意到它与经典的基于实例学习的人类记忆模型之间的有趣联系。Episodic RL为基于实例的处理如何促进奖励驱动学习提供了一个可能的解释。有趣的是，最近关于动物和人类增强学习的研究越来越认可情景记忆的潜在贡献，有证据表明状态和行动价值的估计是基于对特定的过去行动 - 结果观察的检索记忆。

再说meta-RL，它对心理学和神经科学也有值得注意的潜在影响。有研究提出了从meta-RL的元素到神经结构和功能的直接映射。一系列计算机模拟表明， meta-RL可以解释行为和神经生理学中的各种实证研究结果。

快速和慢速RL：更广泛的意义

在讨论episodic RL和meta-RL时，我们强调了“慢速”学习在实现快速、高采样效率的学习方面的作用。在meta-RL中，正如我们所看到的，缓慢且基于权重学习的作用是建立归纳偏置，这可以用于指导推理，从而快速适应新任务。而episodic RL的缓慢增量学习也是类似的。Episodic RL本质上依赖于对情景或状态之间相似性的判断。缓慢的学习形成了状态的内部表示方式，从而产生了一系列关于哪些状态最密切相关的归纳偏置。

如果更仔细地观察episodic RL，可以看出归纳偏置是学习架构的一部分。episodic RL有一种平滑原则的假设：类似的状态通常会产生类似的动作。这种归纳偏置不是用于学习，而是连接到定义episodic RL的学习系统结构中。在当前的AI术语中，这属于“架构”或“算法偏置”等情况，与meta-RL 中的“学习偏置”不同。

无论是通过学习还是通过直接手工设计架构或算法偏置来实现，目前的人工智能研究主要集中在寻找有用的归纳偏置以加快学习速度。实际上，后一种方法本身就是当前人工智能神经网络理论复苏的主要原因。卷积神经网络引发了这种复苏，它构建了一种与图像识别中的平移不变性相关的非常特定的结构偏置。然而，在过去几年中，越来越多的人工智能研究或多或少地集中在归纳偏置问题上。

站在更高的层次来看，这些技术的发展与心理学中一些长期存在的问题极为相似。正如我们已经指出的那样，归纳偏置可能通过学习获得的想法最初源于心理学，并且不时在心理学研究中被人们提到。然而，神经网络中的元学习可以提供新的应用场景来探索这种学习如何学习过程的机制和原因，尤其是在RL环境中。

心理学，特别是发展心理学，长期以来也一直认为人类存在某种内在固有的归纳偏置。然而，架构偏置的概念以及神经网络学习算法的内置偏置的概念还未得到广泛认同。目前深度学习和深度增强学习的方法都提供了一个研究工具，可能有助于心理学领域的进一步探索。

值得注意的是，虽然人工智能将通过学习获得的归纳偏置和手工“加入”的偏置做了明确区分，但在生物学背景下，两者也有更一般的共性。具体而言，人们可以将架构和算法偏置视为由进化驱动的不同学习过程产生的。在这里，进化是一种“缓慢”的学习过程，逐渐形成架构和算法偏置，从而加快终身学习速度。因此，元学习不仅在一个生命周期内发挥作用，而且在进化中也发挥作用。有趣的是，这种观点意味着进化不会选择真正的“通用”学习算法，而是选择那些利用大脑进化的特定环境中的规律性的算法。最近的机器学习更多地深入研究构建agent体系结构的方法，以及通过自然选择的进化算法构建奖励函数，这些新发展再次证明其在探索神经科学和心理学方面的意义。

结束语

deep RL研究领域的快速发展对心理学和神经科学具有极大的意义，因为它集中关注代表性学习和目标导向行为。在本文中，我们描述了最新的deep RL形式，它克服了采样效率低下的明显问题，允许deep RL “快速”工作。这些技术不仅强化了deep RL对心理学和神经科学的潜在联系，而且它们通过情景记忆和元学习等使这些潜在联系更加丰富多样。此外，deep RL的研究越来越多地为心理学和神经科学的新研究给出具体详细的指导。

正如我们所强调的那样，有关高效采样deep RL最新研究的关键意义在于，要快速学习，就必然依赖于慢速学习，这种慢速学习建立了快速学习的表征和归纳偏置。这样的计算辩证法为研究大脑中多个记忆系统及其进化起源提供了理论框架。然而，除了本文中讨论的那些，人类学习可能涉及多个交互过程，因此我们认为任何deep RL模型都需要整合所有这些才能更接近真实的人类学习。在更广泛的层面上，理解RL中快速和慢速之间的关系为心理学和神经科学提供了令人信服的依据。实际上，这可能是人工智能、神经科学和心理学协同作用的关键领域，一直以来都是认知科学所追求的。

2019-05-28 阅读 16034