跳转至

Chapter 6: Model-based methods for deep RL

约 332 个字 预计阅读时间 1 分钟

在前两章,我们讨论了 Model-free 方法,其要么是 Value-based,要么是 Policy-based。在本章中,我们介绍 Model-based 方法:它们依赖于环境模型(动态函数与奖励函数),并与某种规划算法配合使用。之后将介绍 Model-based 与 Model-free 方法各自的优势,以及二者如何整合。

6.1 Pure Model-based Methods

环境的模型要么是直接已知的(比如围棋,所有的规则都已经事前知道),要么是从经验中学习得到的。再一次,在高维甚至部分可观测的环境下,函数逼近带来了显著的优势,可以显著提升模型学习能力。学到的模型可以当做真实环境的代理使用。当环境可用的时候,规划/Planning 就是与环境交互以推荐动作:

Trajectory Optimization

6.2 Integrating Model-free and Model-based Methods

  • I2As:
  • TreeQN/ATreeC:
  • CRAR:

改进无模型与基于模型思想的结合,是深度 RL 未来发展的关键研究方向。因此我们可以预期在该领域出现更聪明与更丰富的结构。