菜单 学习猿地 - LMONKEY

VIP

开通学习猿地VIP

尊享10项VIP特权 持续新增

知识通关挑战

打卡带练!告别无效练习

接私单赚外块

VIP优先接,累计金额超百万

学习猿地私房课免费学

大厂实战课仅对VIP开放

你的一对一导师

每月可免费咨询大牛30次

领取更多软件工程师实用特权

入驻
310
0

Revisiting the Arcade Learning Environment: Evaluation Protocols and Open Problems for General Agents

原创
05/13 14:22
阅读数 63628

郑重声明:原文参见标题,如有侵权,请联系作者,将会撤销发布! 

Journal of Artificial Intelligence Research, (2018)

 

Abstract

  ALE是一个评估平台,构成了在数十种Atari 2600游戏中构建具有通用能力的AI智能体所面临的挑战。它支持各种不同的问题设置,并且已经引起了科学界的越来越多的关注,从而导致了一些高质量的成功案例,例如广为人知的DQN。在本文中,我们对研究界如何使用ALE进行全面的了解。我们展示了随着时间的流逝,ALE中评估方法的多样性,并重点介绍了评估ALE中智能体时的一些关键问题。我们使用此讨论来介绍一些方法上的最优实践,并使用这些最优实践提供新的基准测试结果。为了促进这一领域的进步,我们引入了ALE的新版本,该版本支持多种游戏模式并提供一种称为粘滞动作的随机性形式。通过回顾引入ALE时提出的挑战,总结各种问题中的最新技术并突出显示仍悬而未决的问题,我们总结了这一大局面。

 

1. Introduction

  ALE既是挑战问题,也是评估AI泛化能力的平台。最初由Bellemare, Naddaf, Veness and Bowling (2013)提出,ALE提供了数十款Atari 2600游戏供智能体评估。在没有游戏特定信息的情况下,期望该智能体在尽可能多的游戏中表现良好,通常通过视频流来感知世界。Atari 2600游戏是评估AI智能体的绝佳环境,其主要原因有以下三个:1)它们足够多样化以提供多种不同的任务,需要泛化能力;2)它们对人类很有趣且具有挑战性;3)它们不受实验者的偏见影响,是由独立组织发展起来的。

  ALE的有用性在于它受到了科学界的关注。近年来,使用ALE作为测试平台的论文数量激增。这带来了一些成功的成功案例,例如广为宣传的DQN,这是在大部分Atari 2600游戏中实现人为控制的第一个算法(Mnih et al., 2015)。这种兴趣也导致了关于该主题的第一个专门研讨会,即AAAI关于学习电子游戏泛化能力的研讨会(Albrecht et al., 2015)。在本次研讨会上,我们首先讨论了本文中提出的一些想法,例如标准化评估的需求以及对开环行为和闭环行为的划分。

  鉴于ALE在AI文献中的重要性越来越高,本文旨在成为ALE的"检查",主要研究研究人员如何使用ALE。主要目标是突出一些经常被忽略的细微问题,并提出了一些小过程的更正,以在此试验台的基础上最大化未来研究的科学价值。ALE激励了AI界建立泛化能力更好的智能体,从中汲取的经验教训可能有助于进一步取得进展,并且可能会为其他泛化能力测试平台的开发提供最优实践(例如,Levine et al., 2013; Beattie et al., 2016; Brockman et al., 2016; Johnson et al., 2016)。

  本文的主要贡献是:1)讨论文献中存在的各种评估方法,并针对典型的RL环境,从ALE的经验中总结出一些方法学上的最优实践(第3和第4节)。2)为了解决有关平台以前版本的确定性动态的担忧,通过引入支持随机性形式的ALE的新版本,我们将其称为"粘滞动作"(第5节)。3)在RL设置中提供新的基准测试结果,以简化ALE中实验的比较和可重复性。这些基准测试结果还鼓励开发示例高效算法(第6节)。4)重温引入ALE时所面临的挑战,总结各种问题中的最新技术水平并突出显示当前存在的问题(第7节)。5)向平台引入一项新功能,该功能允许以多种难度级别和游戏模式实例化现有环境(第7.4.1节)

 

2. Background

  在本节中,我们介绍RL背后的形式化(Sutton&Barto, 1998),以及如何在ALE中对其进行实例化。我们还介绍了Atari 2600游戏RL中使用的两种最常见的价值函数表示形式:线性近似和神经网络。按照惯例,标量值随机变量用大写字母(例如St, Rt)表示,矢量用粗体小写字母(例如θ, Φ)表示,函数用非粗体小写字母(例如v, q)表示,并设置为书法字体(例如)。

 

2.1 Setting

  我们考虑一个智能体以顺序的方式与其环境进行交互,旨在最大化累积奖励。通常假定环境满足Markov性,并被建模为Markov决策过程(MDP)。MDP正式定义为4元组。从状态开始,在每个步骤中,智能体根据转换概率核p(s' | s, a) = Pr(St+1 = s' | St = s, At = a),以及奖励Rt+1,它由函数生成。

  在ALE的上下文中,动作是操纵杆方向和可选按钮按下的组合。智能体观察到奖励信号,该信号通常是玩家得分的变化(前一个时间步骤与当前时间步骤之间的分差),以及对环境的观察Ot ∈ O。该观察可以是单个210 x 160的图像和/或当前的1024位RAM状态。由于单个图像通常不满足Markov性,因此我们区分观察和环境状态,RAM数据是仿真器的真实状态。帧(以时间为单位)相当于1/60秒(渲染到电视屏幕的两个连续图像之间的时间间隔)。ALE是确定性的:给定特定的仿真器状态s和操纵杆输入a,可以得到唯一的下一个状态s',即p(s' | s, a) = 1。我们将在第5节中详述此重要特性。

  智能体以回合方式与ALE交互。回合从将ALE重置为其初始配置开始,到游戏进行过程的自然终点结束(这通常对应于玩家失去最后一条命)。智能体性能的主要衡量标准是一个回合所获得的分数,即该回合的无折扣奖励总和。尽管这种性能衡量是很自然的,但重要的是要意识到分数本身并不一定是AI进度的度量。在某些游戏中,智能体可能为了最大化分数而陷入"小"奖励循环的困境,却忽略了人类玩家认为的游戏的主要目标。不过,分数是目前最常见的智能体性能度量,因此我们在此重点介绍。

  除上述最小接口外,几乎所有为ALE设计的智能体都实现某种形式的奖励标准化。奖励的大小在不同游戏中差异很大。将奖励转换为大致均匀的比例,使找到与游戏无关的元参数设置更加可行。例如,有些智能体将每个奖励除以遇到的第一个非零奖励值的大小,隐式假设第一个非零奖励为"典型"(Bellemare et al., 2013)。其他仅使用奖励的符号,将每个奖励值分别替换为-1, 0或1 (Mnih et al., 2015)。大多数智能体还采用某种形式的硬编码预处理来简化学习和动作过程。我们简要回顾了三个最常见的预处理步骤,因为它们将在后续讨论中发挥作用:1)跳帧(Naddaf, 2010)通过对k个连续帧重复选择的动作来限制智能体的决策点,并加快执行速度;文献中通常使用k = 4和k = 5。2)颜色平均(Bellemare et al., 2013)和帧池化(Mnih et al., 2015)是两种基于图像的机制,可将两个连续的帧合并为一个帧,以减少Atari 2600硬件局限性导致的视觉伪像——通过利用1970年代电视上磷光体的缓慢衰减特性,可以在不影响游戏视觉外观的情况下,每隔一帧显示屏幕上的物体(Montfort&Bogost, 2009)。有效地,颜色平均和帧池化消除了ALE中部分可观察性的最优形式。最后,3)帧堆叠(Mnih et al., 2015)将先前的帧与最新的帧连接起来,以便为智能体构建更丰富的观察空间。帧堆叠还降低了ALE中部分可观察性的程度,从而使智能体可以检测对象中的运动方向。

 

内部仿真器状态还包括寄存器和计时器,但RAM信息和操纵杆输入足以推断下一个仿真器状态。

 

2.2 Control in the Arcade Learning Environment

  RL算法的典型目标是学习策略,将每个状态映射到动作上的概率分布。理想情况下,遵循学到的策略将使累积折扣奖励总和最大化。许多RL算法通过学习动作-价值函数来实现这一目标,它编码在状态s中采取动作a并随后遵循策略的长期价值。更具体地说,,对于某些折扣因子γ ∈ [0, 1],其中期望建立在策略π和概率核p上。但是,由于大量可能的状态,在ALE中为每个状态-动作对学习一个单独的价值是不可行的。解决此问题的一种常见方法是通过使用一组权重θ ∈ Rn对其进行参数化来近似动作-价值函数,从而使。下面我们讨论两种已经成功应用于ALE中的游戏的价值函数近似方法。我们专注于这些特定的方法,因为它们到现在已经很成熟,很容易理解,达到了合理的性能水平并反映了我们在此研究的问题。

  第一种方法是设计一个函数,给定一个观察值,该函数在采取动作a时输出向量Φ(s, a)以表示状态s的表征。使用这种方法,我们通过线性函数近似器来估计qπSarsa(λ) (Rummery&Niranjan, 1994)是一种控制算法,可学习持续改进的策略的近似动作-价值函数。当访问状态并观察到奖励时,q会被更新并因此得到改进。更新公式为:

其中步长为α,资格迹向量为et(e-1 = 0),时序差分误差为δt和折扣因子为γ。ALE中的第一个基准将这种方法应用于各种简单的表征(Naddaf, 2010; Bellemare, Veness, & Bowling, 2012b; Bellemare et al., 2013)。最近,Liang, Machado, Talvitie and Bowling (2016)引入了一种表征(Blob-PROST),该表征使Sarsa(λ)在几款Atari 2600游戏中都能达到与DQN相当的性能(如下所述)。我们将这种方法称为Sarsa(λ) + Blob-PROST。最近,Martin et al. (2017)将Sarsa(λ)和Blob-PROST特征与一种激励困难游戏探索的方法相结合。

  RL的最新趋势是使用神经网络来估计,用有效的网络结构和算法代替良好的手工表征的要求。Mnih et al. (2015)推出了DQN,该算法可在神经网络中学习表征,该神经网络由三个隐含的卷积层和一个全连接的隐含层组成。网络权重通过反向传播使用以下更新规则进行更新:

其中表示第二个网络估计的动作-价值。为了稳定起见,该第二个网络的更新频率较低。该算法的其他组成部分包括裁剪奖励(如上所述)和使用经验回放(Lin, 1993)来对观察去相关。DQN激发了许多将RL和深度神经网络相结合的后续工作(例如Jaderberg et al., 2017; Mnih et al., 2016; Schaul et al., 2016; van Hasselt et al., 2016)。

 

2 我们在公式中使用折扣奖励总和,因为这是ALE的智能体通常采用的。经验证据表明,即使在未折扣的情况下对智能体进行实际评估,智能体在最大化折扣累积奖励总和时通常也会表现更好。该公式抑制了智能体延迟评分。

 

3. Divergent Evaluation Methodologies in the ALE

  自从引入ALE作为评估AI泛化能力的平台以来,它就受到了极大的关注。数百篇论文将ALE用作测试平台,并采用了许多不同的实验方案来评估智能体。不幸的是,这些不同的评估协议常常没有被仔细地区分开,从而使直接比较变得困难或有误导性。在本节中,我们讨论文献中出现的许多方法论差异。在随后的章节中,我们将特别关注两个特别重要的方法论问题:1)概括智能体性能的不同度量标准,以及2)向环境中引入随机性的不同机制。
  关于评估协议的发散以及对评估协议标准化的讨论是在AAAI视频游戏泛化能力学习研讨会上进行的。作者比较不同实验协议生成的结果的原因之一是ALE中评估算法的高计算成本——很难重新评估现有方法以确保匹配的方法。因此,为降低ALE的标准方法以减少原则性比较和分析的成本,也许特别重要。本文的主要目标之一是提出这样一个标准,并介绍在该标准下获得的基准结果,以便与未来的工作进行直接比较。

 

3.1 Methodological Differences

  为了说明评估方案的多样性,我们讨论了文献中发现的一些方法论差异。尽管这些差异可能是单独的,但在比较结果时经常会忽略它们,这会破坏直接比较的有效性。

  Episode termination. 在最初的ALE基准测试结果中(Bellemare et al., 2013),游戏结束时回合终止。但是,在某些游戏中,玩家有许多条生命(每次死亡会失去一条)。仅当游戏结束时才终止游戏,这往往会使智能体难以了解失去生命的含义。Mnih et al. (2015)在智能体丧命时终止训练回合,而不是在游戏结束时终止训练回合(整个游戏的评估回合仍然持续)。尽管这种方法有可能教智能体避免"死亡",Bellemare et al. (2016b)指出,它实际上可能有损智能体的性能。目前,这两种方法在文献中仍然很常见。当游戏结束时(例如,Hausknecht et al., 2014; Liang et al., 2016; Lipovetzky et al., 2015; Martin et al., 2017),以及当智能体丧命时(例如,Nair et al., 2015; Schaul et al., 2016; van Hasselt et al., 2016),我们经常会看到回合终止。考虑到最小化游戏特定信息使用的想法以及使用"生命"信号进行终止的可疑效用,我们建议仅将游戏结束信号用于终止。

  Setting of hyperparameters. ALE的主要目标之一是能够评估智能体在复杂的高维决策问题中的泛化学习能力。理想情况下,将对智能体进行全新的评估以测试其通用性,但这当然是不切实际的。标准套件中只有60款可用游戏,因此存在方法可能"解决"一系列问题的风险。类似于监督学习中的典型方法,Bellemare et al. (2013)将游戏分为"训练"和"测试"两类,仅使用来自训练游戏的结果来选择超参数,然后仅在选择了超参数后才对测试游戏中的智能体进行全面评估。此方法在后续工作中一直不一致地使用——例如,有时会使用整个游戏套件选择超参数,在某些情况下会根据游戏优化超参数(例如,Jaderberg et al., 2017)。为了评估通用性,我们建议将训练/测试游戏划分为一种评估智能体未明确解决的问题的方法。

  Measuring training data. ALE中的第一个基准(Bellemare et al., 2013)在评估智能体之前对智能体进行了固定次数的回合训练。这可能会引起误解,因为回合的长度因游戏而异。更糟糕的是,在许多游戏中,回合持续时间越长,智能体性能越好。因此,在这种方法下,与学习速度较慢的智能体相比,早期学习良好策略的智能体总体上会收到更多的训练数据,这可能会扩大他们的差异。最近,根据智能体经历的帧总数来衡量训练数据的数量已变得越来越普遍(Mnih et al., 2015),这有助于可复现性,游戏间分析和公平比较。就是说,由于性能是根据每个回合来衡量的,因此不建议在回合的中间结束训练。例如,Mnih et al. (2015)一旦达到最大帧数就中断训练,而Liang et al. (2016)选择训练帧的总数,然后训练每个智能体,直到回合结束为止。通常情况下,超出限制的额外经验帧数可以忽略不计。要考虑的另一个重要方面是跳帧,这是ALE中的一种常见做法,但在文献中并未得到一致报道。我们提倡从固定的帧数中对完整的训练回合进行评估,就像Liang et al. (2016)所做的那样,并且我们建议在测量训练数据时考虑跳帧的数量,因为智能体操作的时间范围也是一种算法选择。

  Summarizing learning performance. 在60个游戏中评估智能体时,有必要紧凑地总结每个游戏中智能体的性能,以使结果可访问并便于进行比较。作者采用了各种统计数据来概括智能体的性能,并且这种多样性使得很难直接比较报告的结果。我们建议在学习期间以不同的时间间隔报告训练效果。我们将在第4节中详细讨论此问题。

  Injecting stochasticity. 原始的Atari 2600控制台没有用于生成伪随机数的熵源。ALE也是完全确定性的——每个游戏都以相同状态开始,并且结果完全由状态和动作决定。因此,有可能通过学习开环策略(即简单地记住一个好的动作序列)而不是学习在各种游戏场景(Bellemare, Naddaf, Veness, & Bowling, 2015)中做出正确的决定来获得高分。为了鼓励和评估智能体的鲁棒性,已经开发了各种方法来将随机性形式添加到ALE动态中(例如Brockman et al., 2016; Hausknecht and Stone, 2015; Mnih er al., 2015; Nair et al., 2015)。我们的建议是使用在最新版ALE中实施的粘滞动作。我们将在第5节中详细讨论此问题。

 

4. Summarizing Learning Performance

  RL的一个传统目标是,当智能体获得更多数据时,它们的性能会不断提高(Wilson, 1985; Thrun&Mitchell, 1993; Ring, 1997; Singh et al., 2004; Hutter, 2005; Sutton et al., 2011)。测量给定智能体情况的程度可能是一个挑战,并且在ALE的60个游戏中评估该智能体的情况下,这一挑战会更加严峻。仅在少数问题中评估智能体时,通常会绘制学习曲线,从而对智能体的性能提供丰富的描述:学习速度,智能体获得的最高性能,解决方案的稳定性,提供更多数据是否可能继续改进等。

  尽管有些人使用学习曲线报告了ALE的结果(例如Mnih et al., 2016; Ostrovski et al., 2017; Schaul et al., 2016),但很难有效地展示(更不用说理解和比较)60条学习曲线。为了进行比较和紧凑的报告,大多数研究人员已经应用了各种方法来对每个游戏中的智能体性能进行数值汇总(例如,Bellemare et al., 2013; Hausknecht et al., 2014; Munos et al., 2016; Nair et al., 2015)。不幸的是,结果表中各种汇总统计信息的不同使直接比较变得困难。在本节中,我们考虑一些文献中常见的性能度量,并最终将其确定为特别符合持续学习目标的度量,并提倡将其作为报告ALE中学习结果的标准。

 

4.1 Common Performance Measures

  在这里,我们讨论了过去在ALE中采用的一些常见的学习性能摘要统计数据。

  Evaluation after learning. 在第一个ALE基准测试结果中,Bellemare et al. (2013)在固定的训练时期内对智能体进行训练,然后使用许多不学习的评估回合中的平均分数评估学到的策略。自然地,随后的许多研究都使用了这种评估方案(例如,Defazio and Graepel, 2013; Liang et al., 2016; Martin et al., 2017)。这种方法的一个缺点是隐藏了样本效率问题,因为没有在整个训练期间对智能体进行评估。此外,智能体可以使用该度量获得高分,而无需不断提高其性能。例如,智能体可以在纯粹的探索模式下花费其训练时间,收集信息但性能不佳,然后在评估时切换到开发模式。尽管在未评估的训练期间制定良好策略是一个有趣的问题,但在RL中,通常期望智能体随着经验不断改进。重要的是,ε-贪婪策略在ALE中往往比贪婪策略性能更优(Bellemare et al., 2013; Mnih et al., 2015)。因此,此协议不一定会受益于评估过程中的探索。实际上,根据该协议报告的结果经常在评估过程中使用ε-贪婪策略。

  Evaluation of the best policy. 在评估DQN时,Mnih et al. (2015)还对智能体进行固定时期的训练。在此过程中,他们定期评估所学策略的性能。在训练时期结束时,他们在无学习的情况下进行了多次评估,评估了最优策略。大量的后续工作已经复制了这种方法(例如Schaul et al., 2016; van Hasselt et al., 2016)。该协议保留了学习后评估的缺点,并增加了一个额外条件:它不评估智能体学习进度的稳定性。图1通过在游戏Centipede中显示不同的学习曲线来说明此问题的重要性。一方面,Sarsa(λ) + Blob-PROST在早期就获得了高分,但随后变得不稳定,因此无法保留这种成功的策略。DQN的最高分数要低得多,但也比较稳定(尽管并不完美)。报告最优策略的性能无法识别两种算法的暴跌行为和DQN更稳定的性能。还要注意的是,在整个训练过程中获得的最优分数是对智能体的最优性能的统计有偏估计:为避免这种偏差,应在特定的时间点对智能体再次进行独立评估,如Wang et al. (2016)所报道。

  Area under the learning curve. 最近,避开明确的评估阶段,Stadie, Levine, and Abbeel (2015)提出了学习曲线下的面积作为评估度量。直观地,学习曲线下的面积通常与一种方法达到"良好"性能的时间(即训练期间的平均性能)成正比。在这种度量下,只有性能峰值的方法和不稳定的方法通常效果较差。但是,学习曲线下的面积不能捕获图1所示的"暴跌"行为。例如,在这种情况下,使用此度量,Sarsa(λ) + Blob-PROST看起来比DQN好得多。即使我们通常更喜欢后者,也无法将高方差,不稳定的学习过程与朝着良好策略的稳步进展区分开来。

 

4.2 Proposal: Performance During Training

  我们提出的性能度量很简单,并且之前已经被采用(例如Bellemare et al., 2012)。在训练结束时(最好在其他时间也是如此)报告最近k个回合的平均性能。该协议不使用显式评估阶段,因此要求智能体在学习时性能良好。这样可以更好地使性能度量与持续学习的目标保持一致,同时也简化了实验方法。与那些稳定和持续改进的方法相比,表现出尖峰和/或暴跌的学习曲线的不稳定方法即使在大多数训练中性能良好,其评分也很差。

  另一个优点是该度量标准非常适合分析算法的样本效率。尽管通常会特别关注训练即将结束时智能体的性能,但直接在训练过程中的各个点报告相同的统计数据也很简单,可以有效地总结学习曲线(沿曲线选择几个点)。此外,如果研究人员可以公开其全部学习曲线数据,则其他人可以轻松地进行事后分析,以便进行任何数量的训练比较,而不必完全重新评估现有方法。当前,训练智能体2亿帧是相当标准的,以便于与Mnih et al. (2015)报告的DQN结果进行比较。这相当于大约38天的实时游戏时间,即使是在高帧率下也代表了显著的计算费用。通过报告训练过程中多个点的性能,研究人员可以轻松地在学习过程的早期进行比较,从而减轻评估智能体的计算负担。

  根据该建议,我们在第6节中提供的基准测试结果报告了智能体达到10, 50, 100和2亿帧之前,智能体最近100个回合的平均得分,并且我们的完整学习曲线数据已公开3。这使我们可以得出有关算法的学习率和稳定性的见解,并为希望将来与这些基准进行比较的研究人员提供更大的灵活性。

 

3 http://www.marcgbellemare.info/static/data/machado17revisiting.zip

 

5. Determinism and Stochasticity in the Arcade Learning Environment

  在几乎所有游戏中,Stella本身(嵌入在ALE中的Atari 2600 VCS仿真器)的动态都是确定的,要考虑到智能体的行为。智能体始终以相同的初始状态开始,并且给定的动作序列始终导致相同的结果。Bellemare et al. (2015)和Braylan et al. (2015)表明,仅通过记住有效的动作序列即可获得这种确定性,获得当前最优的分数,而完全忽略了智能体的感知状态。这种方法不可能在ALE以外取得成功——在大多数感兴趣的问题中,即使不是不可能,也很难准确地重现特定的状态-动作序列,并且需要闭环决策。依赖于ALE的确定性主体可以取得高分,但也可能对小扰动高度敏感。例如,Hausknecht and Stone (2015)分析了确定性在HyperNEAT-GGP成功中的作用(Hausknecht et al., 2014)。图2显示,在多种形式的轻度随机性下,memorizing-NEAT(实心框)的性能明显较差,而经过一定随机扰动训练的randomized-NEAT(空心且中间夹紧的框)在确定性条件下的效果较差。对各种形式的随机性更强大。作为评估平台,确定性ALE无法有效地区分脆弱的基于记忆的智能体以及学习可靠闭环策略的智能体。

  认识到ALE早期版本中的这一局限性,许多研究人员增加了ALE的标准行为,以评估其智能体的鲁棒性并阻止记忆(例如,加入随机性,Hausknecht and Stone, 2015; 无操作,Mnih et al., 2015; 人类起步,Nair et al., 2015; 随机跳帧,Brockman et al., 2016)。然而,这种广泛的实验方案使结果难以直接比较。我们认为研究团体将受益于单一标准协议,该协议从经验上区分脆弱的开环解决方案和鲁棒的闭环解决方案。

  在本节中,我们将讨论Brute(在Bellemare et al., 2015中首次简要介绍)作为算法的示例,该算法明确有效地利用了环境的确定性。我们在五个Atari 2600游戏中展示了结果,将Brute的性能与传统上成功的RL方法进行了比较。然后,我们介绍了将随机性引入ALE的粘滞动作方法,并表明该方法有效地将Brute与学习更强大策略的方法区分开。我们还讨论了旨在阻止开环策略的几种替代实验协议的优缺点,最终提出了将粘滞动作作为标准的训练和评估协议的建议,这些协议将被并入新版本的ALE。

 

5.1 The Brute

 

5.1.1 Empirical Evaluation

  我们在Bellemare et al. (2013)提出的五个训练游戏中评估了Brute的性能。表1中列出了Brute以及DQN和Sarsa(λ) + Blob-PROST所获得的平均分数。与环境交互作用达5000万帧的智能体,报告的数字是智能体在学习过程中的最近100个回合中获得的平均分数。我们将在附录B中讨论实验设置。

  Brute是粗糙的,但是我们看到它在许多游戏上有可观的性能。实际上,Bellemare et al. (2015)使用不同的评估协议,报告说在55个Atari 2600游戏中,有45个在当时最好的学习方法上表现出了优异的性能。但是,正如我们将看到的,这种性能在很大程度上取决于环境的确定性。在下一节中,我们将讨论如何修改ALE以引入一种称为粘滞动作的随机性形式。并且我们证明了当引入小的随机扰动时,Brute比较失败。

 

5.2 Sticky Actions

  本节介绍粘滞动作,即我们将随机性引入ALE的方法。这种方法还评估了学到的策略的鲁棒性。其设计基于以下需求:

  • 相对于环境,随机性应至少是非马尔可夫式的,即,仿真器要执行的动作应仅以智能体选择的动作和仿真器先前执行的动作为条件。
  • 现有任务的困难性不应被更改,即,不依赖于环境确定性的算法不应因引入随机性而妨碍其性能,并且
  • 这应该易于在ALE中实现,而无需在Stella仿真器内部进行更改,但仅限于框架本身。

  在粘滞动作中,有一个粘滞参数,环境在每个时间步骤再次执行智能体的上一个动作而不是智能体的新动作的概率。更具体地说,在时间步骤 t,智能体决定执行动作a;但是,实际上环境执行的动作At是:

换句话说,如果,则环境有25%的机会不会立即执行所需的动作。图3(左)说明了此过程。

  请注意,如果智能体决定在多个时间步骤中选择相同的动作,则在环境中执行该动作所花费的时间将遵循几何分布。在执行新动作之前,前一个动作已执行k次的概率为

  粘滞动作与随机延迟不同,因为在前者中,智能体可以随时通过向仿真器发送新动作来改变主意。要了解为什么这很重要,请考虑游戏Q*bert,其中一个错误的动作可能导致智能体跳出金字塔并丧命(图3, 右)。在粘滞动作下,智能体可以在落到边缘之前切换到无操作状态,因为知道该动作很有可能不会持续到将智能体推下金字塔的程度。对于随机延迟,即使智能体在着陆之前已切换为无操作,也将执行之前的动作,直到延迟过去为止。这增加了智能体一旦落到边缘上将被迫继续移动的可能性,从而使其更有可能从金字塔上掉下来。

  粘滞动作也可以与ALE的其他方面很好地相互作用。大多数Atari 2600游戏都是确定性的,很难改变其动态性。我们的方法仅影响发送哪些动作来执行。粘滞动作也可以与跳帧很好地交互(请参阅第2节)。对于粘滞动作,在跳过的帧之间的每个中间时间步骤处,执行前一动作的概率为。显然,这适用于直到执行当前动作为止(当之前执行的动作与当前动作相同时)。图3描述了跳帧为4的过程。

 

5.2.1 Evaluating the Impact of Sticky Actions

  现在,我们根据粘滞动作协议重新评估了Brute,DQN和Sarsa(λ) + Blob-PROST的性能。直觉是利用环境的确定性假设的Brute在引入随机性时性能应更差。我们重复了5.1.1节的实验,但是。表2描述了算法在随机环境和确定性环境中的性能。

  我们可以看到,Brute是唯一受粘滞动作影响的算法。这些结果表明粘滞动作使我们能够凭经验评估智能体对干扰的鲁棒性。

 

5.3 Alternative Forms of Stochasticity

  作为本节的总结,我们简要地讨论了粘滞动作的一些替代方案,列出了它们的优点(+)和缺点(-)。这些替代方法分为两大类:起始状态方法和随机方法。在起始状态方法中,回合的第一个状态是随机选择的,但是确定性动态保持不变。由于智能体保留对其动作的完全控制权,所以这些方法的侵入性较小,但并不排除利用环境的确定性。在智能体可以通过执行完美定时的动作序列来利用游戏漏洞的游戏中,例如在游戏Q*bert4中,这可能是不可取的。另一方面,随机方法会影响智能体在整个回合中均匀控制环境的能力,从而影响其性能。我们认为,我们提出的方法可以最小化这种影响。

  Initial no-ops. 在评估智能体时,请采取0到k次无操作动作(随机均匀选择)来开始回合(Mnih et al., 2015)。通过影响初始仿真器状态,可以防止最简单形式的开环控制。

  + 不干扰智能体动作选择。
  - 影响因游戏而异。例如,最初的无操作在Freeway中没有效果。
  - 除了选择起始状态外,环境仍然是确定性的。
  - 类似Brute的方法仍然表现良好。

  Random human starts. 在评估智能体时,请采取0到k次无操作动作(随机均匀选择)来开始回合(Mnih et al., 2015)。通过影响初始仿真器状态,可以防止最简单形式的开环控制。

  + 允许在非常不同的情况下评估智能体。
  - 除了选择起始状态外,环境仍然是确定性的。
  - 类似Brute的方法仍然表现良好。

  - 提供既有意义又没有研究者偏见的起始状态可能很困难。例如,Nair et al. (2015)报道的分数在起始状态之间没有可比性:尽管在Pong的一场完整比赛中,一个智能体可以得到21分,但是从更后面的起始状态开始,这个得分是无法实现的。

  Uniformly random action noise. 概率为的情况下,智能体选择的动作将替换为从合法动作集中均匀抽取的另一个动作。

  + 匹配最常用的探索形式,ε-贪婪。
  - 例如在游戏Q*bert中狭窄的悬崖上行动时,可能会严重干扰智能体的策略。

  Random frame skips. 这种方法在OpenAI的Gym (Brockman et al., 2016)中实现,最接近我们的方法。每个动作随机地持续k1到k2帧。

  + 不干扰动作选择,仅干扰动作执行的时间。
  - 这将限制智能体使用跳帧。特别是,智能体不能对动作期间发生的事件做出反应。
  - 还必须更仔细地对待折扣,因为这会使有效折扣因子随机化。
  - 智能体具有完美的反应时间,因为其动作始终有立即效果。

  Asynchronous environment. 更复杂的环境可能涉及智能体与环境之间不可预测的通信延迟。在Minecraft (Project Malmo; Johnson et al., 2016),Starcraft (Ontanon et al., 2013)和机器人RL平台(Sutton et al., 2011)中就是这种情况。

  + 此设置自然会阻止依赖确定性的智能体。
  - 缺乏跨平台和硬件的可复现性。
  - 通过足够快速的通信,可以恢复到确定性环境。

  Overall comparison. 我们提出的解决方案,即粘滞动作,利用其他方法的一些主要优点,而没有它们的大多数缺点。它不受研究人员偏见的影响,也不干扰智能体动作的选择,并且阻止智能体依赖记忆。新环境在整个回合中都是随机的,生成的结果是可复现的,并且我们的方法与跳帧和折扣自然地交互。

 

6. Benchmark Results in the Arcade Learning Environment

  在本节中,我们将介绍使用粘滞动作的60种Atari 2600游戏中DQN和Sarsa(λ) + Blob-PROST的新基准测试结果。我们希望未来的工作将采用本文所述的实验方法,从而能够直接将结果与该基准进行比较。

 

6.1 Experimental Method

  我们在60种不同的Atari 2600游戏中评估了DQN和Sarsa(λ) + Blob-PROST。我们使用新版ALE()中的粘滞动作选项报告结果,评估学习时的最终性能,分别为10, 50, 100和2亿帧。我们使用100个最终回合计算每次试验的平均得分,直到指定的阈值为止,包括超过总数的回合。我们报告了DQN的5项试验的均值,以及Sarsa(λ) + Blob-PROST的24项试验的均值。为了减轻可复现性,我们在附录B中列出了Sarsa(λ) + Blob-PROST和DQN使用的所有相关参数。我们鼓励研究人员以可复现的方式在ALE上展示其结果。

 

6.2 Benchmark Results

  我们在表3和表4中列出了Sarsa(λ) + Blob-PROST和DQN的获得结果的摘录。这些表报告了我们用于训练的游戏中获得的分数。这些游戏最初是由Bellemare et al. (2013)提出的。完整的结果可在附录C中找到。
  因为我们在不同的时间点报告了算法的性能,所以这些结果使我们对每种算法的学习进度有了深刻的了解。通过这种分析,我们可以在60个游戏中验证智能体的性能骤降的频率;以及智能体在2亿帧之前达到最优性能的频率。
  在大多数游戏中,Sarsa(λ) + Blob-PROST的性能在整个学习期间一直稳定增长。在只有10%的游戏中,使用2亿帧获得的分数低于使用1亿帧获得的分数。从统计上看,这种差异仅在3个游戏中有意义:Carnival,Centipede和Wizard of War。但是,在大多数游戏中,我们观察到智能体性能的改进在逐渐减少。在60个游戏中,只有22个游戏在统计上显著提高(从1亿帧到2亿帧)。在Montezuma's Revenge等几个游戏中,这种停滞是由于探索问题所致。智能体无法在环境中找到额外奖励。

  DQN在学习过程中具有更高的方差,并且似乎从额外数据中受益不大。在60个游戏里,只有25个游戏可以用DQN在2亿帧中获得最高分。在60个游戏中,只有18个游戏的智能体性能在2亿帧的统计上要优于1亿帧。6 相比之下,Sarsa(λ) + Blob-PROST在60个游戏中有50个以2亿个样本获得了最高分。在比较1亿和2亿个样本的智能体性能时,我们没有观察到DQN的统计显著性降低。重要的是要补充一点,缺乏统计显著性结果可能是由于我们的样本量造成的(n = 5)。t检验的功效可能仍然太低,无法检测到DQN性能的显著差异。值得指出的是,最初引入DQN时,其结果仅包含一项独立试验。尽管其计算成本很高,但我们在5个试验中对其进行了评估,以尝试更全面地评估这种重要算法,从而解决了我们上面讨论的方法论问题,并提供了更具可复现性和统计学可比性的DQN基准。

  我们还比较了每种游戏中两种算法的性能,以了解特定的趋势,例如性能下降和缺乏学习。性能下降似乎与算法有关,而不与游戏有关。Centipede是唯一在DQN和Sarsa(λ) + Blob-PROST上均表现出性能暴跌的游戏。我们在其他游戏中观察到的性能下降仅发生于一种算法。另一方面,对于这两种算法,我们能够识别出似乎比其他游戏难一些的游戏。两种算法在诸如Asteroids,Pitfall和Tennis之类的游戏上都没有取得太大进展。这些游戏通常会给智能体带来艰巨的探索任务;或具有复杂的动力学特性,要求有更好的表征,能够准确编码价值函数近似值。
  我们还可以将我们的结果与以前发布的结果进行比较,以验证我们提出的评估协议对智能体性能的影响。这个新设置似乎并没有特定的算法。正如Liang et al. (2016)所建议的那样,Sarsa(λ) + Blob-PROST和DQN仍具有相当的性能,每种算法在相同数量的游戏中表现得更好。如我们在第5节中已经讨论的那样,使用粘滞动作似乎仅实质上阻碍了Brute智能体的性能,而对DQN和Sarsa(λ) + Blob-PROST的性能没有太大影响。我们仅在以下三个游戏中观察到DQN和Sarsa(λ) + Blob-PROST的性能下降:Breakout,Gopher和Pong。

 

5 Welch's t-test (p < 0:05; n = 24).

6 Welch's t-test (p < 0:05; n = 5).

 

7. Open Problems and the Current State-of-the-Art in the ALE

  为了提供研究团体如何使用ALE的完整概图,讨论研究界使用ALE作为测试平台的各种研究问题也很重要。在过去的几年中,我们在ALE中展示了几项成功,并迅速推出了新结果。
  我们列出了社区使用ALE进行的重要研究方向,并且我们根据文献中的最新结果认为,尽管取得了重大进展,但这些问题仍然存在。这些研究方向是:

  • 表征学习
  • 探索
  • 迁移学习
  • 模型学习,以及
  • 异策学习。

 

7.1 Representation Learning

  ALE最初是为了提出通用能力问题而提出的:期望一个算法能够玩几十个Atari 2600游戏。因此,智能体必须使用能够代表所有游戏的通用编码(例如,Liang et al., 2016),或者能够自动学习表征。后者对于发现更好的表征同时减轻手工特征的负担显然是更可取的。

  Mnih et al. (2015)的DQN证明可以与控制策略一起学习表征。但是,基于神经网络的RL方法仍然具有较高的样本复杂度,在达到良好性能之前至少需要数千万个样本,部分原因是需要学习此表征。在我们报告的结果中,当以1000万帧进行评估时,在不到20%的游戏中,DQN的性能(表9)优于Sarsa(λ) + Blob-PROST(表8),并且在1亿帧时达到了相当的性能。较高的样本复杂度似乎也阻碍了智能体在特定环境中的性能,例如非零回报非常稀疏时。图4通过显示DQN在玩Montezuma's Revenge时偶尔看到非零奖励的方式(图6a)来说明这一点,但是它并不能始终如一地获得非零奖励。最近,研究人员试图通过对样本进行加权,优先处理那些似乎能够为智能体提供更多信息的样本来解决这个问题(Schaul et al., 2016)。另一种方法是使用辅助任务,允许智能体在观察到第一个外部奖励之前就开始学习表征(Jaderberg et al., 2017);Bellemare et al. (2017)的C51算法得到的输出分布被视为一组特别有意义的辅助任务。最后,内在产生的奖励(Bellemare et al., 2016b)也可能提供有用的学习信号,智能体可以用来建立表征。

  尽管样本复杂度很高,但与简单的手工编码表征相比,DQN和类似DQN的方法总体上仍是性能最优的方法(Liang et al., 2016)。但是,这些改进并不像其他应用程序那样显著(例如,计算机视觉;Krizhevsky et al., 2012)。此外,如Islam et al. (2017)最近在持续控制的背景下报道的那样,这种优越的性能通常是以额外调整为代价的。这表明有效学习ALE中的良好表征仍有很大的进步空间。

  虽然尚未在这种情况下进行充分探索,但也提出了以示例方式有效地学习内部表征的不同方法(Veness et al., 2015)。研究界一直在关注的其他方向是开发更好的可视化方法(Zahavy, Ben-Zrihem, & Mannor, 2016),提出减轻专用硬件需求的算法(Mnih et al., 2016)以及遗传算法(Kelly & Heywood, 2017)。

 

 

7.2 Planning and Model-Learning

  尽管在AI中搜索算法取得了许多成功(例如,Campbell et al., 2002; Schaeffer et al., 2007; Silver et al., 2016),但是与学习策略或价值函数的方法相比,在ALE中进行规划仍然很少(但请参见Bellemare et al., 2013b; Guo et al., 2014; Lipovetzky et al., 2015; Shleyfman et al., 2016; Jinnai and Fukunaga, 2017,有关ALE中已发布的规划结果)。开发足够通用的启发式方法以成功应用于数十种不同的游戏是一个具有挑战性的问题。问题的分支因子以及目标有时比智能体的初始状态快数千步的事实也是主要困难。

  ALE中几乎所有成功的规划工作都使用Stella仿真器提供的生成模型,因此也有精确的环境模型。学习生成模型是一项非常具有挑战性的任务(Bellemare et al., 2013, 2014; Oh et al., 2015; Chiappa et al., 2017),到目前为止,尚无明确证明成功的规划可用于ALE中学到的模型。在小时间步骤之前,学到的模型往往是准确的,直到误差开始加剧(Talvitie, 2014)。例如,图5描绘了使用在ALE上训练的第一个生成模型之一获得的展示(Bellemare et al., 2013)。在这种情况下,我们可以看到部署的准确性在几十个时间步骤之后开始下降。ALE中最成功的模型学习示例可能是由于Oh et al. (2015)学到多步模型(多达一百个时间步骤)看起来准确。这些模型能够协助探索,表明模型的准确性。但是,由于复合误差,该算法仍需要经常将其模型恢复到游戏的真实状态。最近,Chiappa et al. (2017)展示了在此原始模型上的重大改进,包括使用内部状态进行规划的能力。但是,在两种情况下,模型都比仿真器本身慢得多。设计一个快速且准确的模型仍然是一个悬而未决的问题。

  一个相关的开放问题是如何用不完善的模型进行规划。尽管可能无法实现无误差的模型,但有大量证据表明,即使对于无模型的情况,即使是粗略的价值函数也足够(Veness et al., 2015),提出了如何补偿模型误差的问题。训练集增强(Talvitie, 2014, 2017; Venkatraman, Hebert, & Bagnell, 2015)表明,可以改进原本有限的模型。同样,Farahmand et al. (2017)表明,训练模型时使用价值感知损失函数可以获得更好的规划性能。我们认为这是一个丰富的研究方向。

 

7.3 Exploration

  大多数探索方法都关注表格形式并通常学习环境模型(例如Kearns and Singh, 2002; Brafman and Tennenholtz, 2002; Strehl and Littman, 2008)。当需要函数近似时,研究界才刚刚开始研究无模型环境中的探索策略(例如,Bellemare et al., 2016b; Osband et al., 2016; Ostrovski et al., 2017; Machado et al., 2017; Martin et al., 2017; Vezhnevets et al., 2017)。这是ALE所在的设置。考虑到游戏中可能存在的大量状态,访问每个状态似乎都不是一种可行的策略(由于Atari 2600具有1024位RAM内存,因此可能有21024个不同状态)。在Montezuma's Revenge和Private Eye等游戏中(参见图6),即使很难获得任何反馈,因为在看到第一个正奖励之前可能需要数千次动作。考虑到通常的样本限制(2亿帧),随机探索极不可能指导智能体取得正奖励。实际上,有些游戏例如Pitfall!和Tennis(见图6)则面临着更大的挑战:比起正奖励,随机探索更有可能产生负奖励。因此,尽管最先进的智能体(例如,Bellemare et al., 2017; Jaderberg et al., 2017)有时可以克服这种负奖励梯度,但许多更简单的智能体都知道,保持不变是最优的近视策略。

  一些研究人员最近开始尝试解决ALE中的探索问题。Machado et al. (2015)扩展乐观初始化到函数近似。Oh et al. (2015)和Stadie et al. (2015)学习模型,以预测智能体采取哪种动作导致最少观察到的帧,或者不确定性更高。Bellemare et al. (2016b), Ostrovski et al. (2017)和Martin et al. (2017)扩展状态访问计数器,以实现函数近似。Osband et al. (2016)使用随机价值函数更好地探索环境。Machado et al. (2017)和Vezhnevets et al. (2017)提出了使用选项来生成决定性因素的方法,以避免在随机游走中经常观察到的抖动现象。但是,尽管在单项游戏中取得了成功,例如Bellemare等人在Montezuma's Revenge中获得了成功,但是这些方法都无法以有意义的方式改进智能体在Pitfall!等游戏中的性能,迄今为止唯一的成功涉及某种形式的学徒制(例如,Hester et al., 2017)。

  要缩小适用于表格情况的解决方案与适用于ALE的解决方案之间的差距,仍有许多工作要做。似乎仍然缺少的一个方面是能够长时间做出决定且在不同抽象层次上进行探索的智能体,这是人类经常要做的事情。也许智能体不应该在操纵杆运动方面进行探索,而应在对象配置和游戏水平方面进行探索。最后,对于本质上困难的游戏,智能体可能需要某种形式的内在动机(Oudeyer, Kaplan, & Hafner, 2007; Barto, 2013)才能继续玩游戏,尽管显然不可能在游戏中得分。

 

7.4 Transfer Learning

  ALE中的大多数工作都是在每个游戏中分别训练智能体,但是许多Atari 2600游戏具有相似的动态。我们可以期望知识迁移会减少学习玩类似游戏所需的样本数量。例如,Space Invaders和Demon Attack(图7)是两个类似的游戏,其中的智能体以屏幕底部的一艘太空船为代表,并射击进来的敌人。一个更雄心勃勃的研究问题是如何利用通用视频游戏经验,在并非直接相似的游戏之间共享知识。在这种情况下,可以学习更多抽象的概念,例如,当化身转到当前屏幕的边缘时,有时会看到新的屏幕。

  有尝试在ALE中应用迁移学习的方法(Rusu et al., 2016; Parisotto et al., 2016)。这样的尝试仅限于十几种趋于相似并且通常需要"专家"网络的游戏,而不是学习如何同时玩所有游戏。Taylor and Stone (2009)表明,根据所使用任务之间的相似性,人们可能会面临负迁移。尚不清楚应如何在ALE中解决此问题。理想情况下,我们希望有一种算法可以自动确定哪些游戏有用,哪些游戏无效。最后,当前的方法仅基于使用神经网络来执行迁移,合并表征和策略迁移。研究如何独立地迁移这些实体中的每个实体可能是有趣的。为了帮助探索这些问题,最新版本的ALE支持游戏模式和难度设置。

 

7.4.1 Modes and Difficulties in the Arcade Learning Environment

  最初,许多Atari 2600游戏具有默认的游戏模式和难度级别,可以通过控制台上的选择开关进行更改。这些模式/难度切换会产生不同的结果,例如更改游戏动态或引入新的动作(请参见图8)。直到最近,ALE才允许智能体仅以其默认模式和难度玩游戏。ALE的最新版本允许你在所有不同的游戏模式和单人游戏难度中进行选择。我们将每个模式难度对称为特色。

  通过引入许多非常相似的新环境,此新特征开辟了研究途径。由于不同特色之间的潜在状态表征可能高度相关,因此我们认为负迁移不太可能,这为迁移设置提供了更方便的条件。ALE最初将支持的此类游戏的列表及其特色的数量,请参阅附录D。

 

7.5 Off-Policy Learning

  当应用于ALE时,异策学习算法似乎很脆弱。Defazio and Graepel (2014)报告说,使用诸如GQ(λ)的算法(例如没有投影步骤和Q学习)时存在发散。
  除了提出理论上表现更好的新算法的建议(例如,Maei and Sutton, 2010)外,减少异策学习中发散的尝试目前还包括试探法,这些试探法试图去关联观察,例如使用经验回放缓存。以及在DQN中使用目标网络(Mnih et al., 2015)。最近的论文介绍了Q学习更新规则的变化,以减少价值函数的高估(van Hasselt et al., 2016),增加价值函数估计的动作差距的新运算符(Bellemare et al., 2016a),以及更鲁棒的异策多步算法(Harutyunyan et al., 2016; Munos et al., 2016)。但是,除了对收敛有更好的理论理解之外,稳定且实用的具有函数近似的异策学习算法在文献中仍然不完整。到目前为止,ALE中报告的最优经验结果是通过其性能不能被当前理论结果完全解释的算法获得的。仍然缺乏对最新的异策算法(例如GTD)的全面经验评估。
  通过令人信服地证明当前用于异策学习的理论上合理的算法的有效性或通过上述某些改进来解决上述问题,可以使我们摆脱使用经验回放和/或目标网络的复杂性。而且,这将使我们能够更好地重用与所学策略截然不同的策略样本。

 

8. Conclusion

  在本文中,我们对研究界如何使用ALE进行了全面了解。我们讨论了已采用的各种评估方法,以及它们在文献中的使用频率。为了进一步推动这一领域的发展,我们提出了一些方法学上的最优实践,并提供了一个新版本的ALE,该环境支持随机性和多种游戏模式。我们希望,借助新的ALE,这种方法实践可以使人们清楚地区分不同的评估方案。此外,我们提供遵循这些方法学最优实践的基准测试结果,可以作为ALE未来工作的比较点。我们评估了使用线性和非线性函数近似的RL算法,并希望通过报告学习期间不同时刻的算法性能来促进关于样本效率的讨论。在本文的最后部分,我们通过回顾ALE原始文章中提出的挑战,总结了我们所看到的全景。我们总结了当前的最新技术,并重点介绍了我们认为仍待解决的五个问题:表征学习,规划和模型学习,探索,迁移学习和异策学习。

 

Appendix A. The Brute

 

A.1 Determinism and starting configurations

 

A.2 Value estimation in a history tree

 

A.3 Narrow exploration

 

Appendix B. Experimental Setup

 

B.1 Evaluation Protocol and Arcade Learning Environment Parameters

 

B.2 Parameters used by the Brute

 

B.3 Parameters used by DQN

 

B.4 Parameters used by Sarsa(λ) + Blob-PROST

 

Appendix C. Complete Benchmark Results

 

Appendix D. Number of Game Modes and Difficulties in the Games Supported by the Arcade Learning Environment

发表评论

0/200
310 点赞
0 评论
收藏