Chapter 3: Finite Markov Decision Processes¶

约 155 个字预计阅读时间 1 分钟

在赌博机问题中，我们只需要估计每一个动作 \(a\) 的价值 \(q_*(a)\)，而在强化学习问题中，我们需要估计得是在当前状态 \(s\) 下，每一个动作 \(a\) 的价值 \(q_*(s, a)\)，或者是在已知最优动作选择的情况下，每一个状态的价值 \(v_*(s)\)。这些和状态无关的量对估计每一个动作选择的长期结果来说是至关重要的。

有的地方的名词也将一个状态序列称为轨迹，这时需要从上下文来分辨。