Chapter 6: Model-based methods for deep RL¶
约 332 个字 预计阅读时间 1 分钟
在前两章,我们讨论了 Model-free 方法,其要么是 Value-based,要么是 Policy-based。在本章中,我们介绍 Model-based 方法:它们依赖于环境模型(动态函数与奖励函数),并与某种规划算法配合使用。之后将介绍 Model-based 与 Model-free 方法各自的优势,以及二者如何整合。
6.1 Pure Model-based Methods¶
环境的模型要么是直接已知的(比如围棋,所有的规则都已经事前知道),要么是从经验中学习得到的。再一次,在高维甚至部分可观测的环境下,函数逼近带来了显著的优势,可以显著提升模型学习能力。学到的模型可以当做真实环境的代理使用。当环境可用的时候,规划/Planning 就是与环境交互以推荐动作:
- 当动作是离散的时候,可以通过生成潜在的轨迹来进行 Lookahead Search;
- 当动作是连续的时候,可以使用多种 Controller 来进行 Trajectory Optimization。
Lookahead Search¶
Trajectory Optimization¶
6.2 Integrating Model-free and Model-based Methods¶
- I2As:
- TreeQN/ATreeC:
- CRAR:
改进无模型与基于模型思想的结合,是深度 RL 未来发展的关键研究方向。因此我们可以预期在该领域出现更聪明与更丰富的结构。