Chapter 6: Model-based methods for deep RL¶

约 332 个字预计阅读时间 1 分钟

在前两章，我们讨论了 Model-free 方法，其要么是 Value-based，要么是 Policy-based。在本章中，我们介绍 Model-based 方法：它们依赖于环境模型（动态函数与奖励函数），并与某种规划算法配合使用。之后将介绍 Model-based 与 Model-free 方法各自的优势，以及二者如何整合。

6.1 Pure Model-based Methods¶

环境的模型要么是直接已知的（比如围棋，所有的规则都已经事前知道），要么是从经验中学习得到的。再一次，在高维甚至部分可观测的环境下，函数逼近带来了显著的优势，可以显著提升模型学习能力。学到的模型可以当做真实环境的代理使用。当环境可用的时候，规划/Planning 就是与环境交互以推荐动作：

当动作是离散的时候，可以通过生成潜在的轨迹来进行 Lookahead Search；
当动作是连续的时候，可以使用多种 Controller 来进行 Trajectory Optimization。

Lookahead Search¶

Trajectory Optimization¶

6.2 Integrating Model-free and Model-based Methods¶

I2As:
TreeQN/ATreeC:
CRAR:

改进无模型与基于模型思想的结合，是深度 RL 未来发展的关键研究方向。因此我们可以预期在该领域出现更聪明与更丰富的结构。