Generative Adversarial Imitation Learning¶

约 600 个字预计阅读时间 2 分钟

Abstract

0 Most Important Things¶

1 Introduction¶

2 Background¶

对于一个专家策略 \(\pi_E\)，我们希望使用 IRL 来理解它，我们使用最大因果熵 IRL/Maximal Causal Entropy IRL/MCE IRL 来从一个函数族 \(\mathcal{C}\) 中拟合一个成本函数 \(c\)，形式化为下面的优化问题：

\[ \max_{c \in \mathcal{C}} \left( \min_{\pi \in \Pi} -H(\pi) + E_\pi[c(s,a)] - E_{\pi_E}[c(s,a)] \right) \qquad (1) \]

其中 \(H(\pi) \triangleq E_\pi[-\log \pi(a|s)]\) 是策略 \(\pi\) 的 \(\gamma\) 折扣因果熵。并且这里 \(\pi_E\) 只能通过在环境中执行 \(\pi_E\) 采样的轨迹集合来提供，所以公式 (1) 中 \(\pi_E\) 的期望成本使用这些样本来估计。

最大因果熵 IRL 寻找一个成本函数 \(c \in \mathcal{C}\)，该函数给专家策略分配低成本，给其他策略分配高成本，从而允许通过特定的强化学习过程找到专家策略。具体执行分为外层和内层两部分：

内层部分在给定成本函数 \(c\) 的情况下，找到最小化累计成本的高熵最优策略 \(\pi\)，形式化为：

\[ RL(c) = \operatorname*{\arg\min}_{\pi \in \Pi} -H(\pi) + E_\pi[c(s,a)] \qquad (2) \]

其中因果熵 \(H(\pi)\) 衡量策略 \(\pi\) 的随机性，熵越大，策略越随机。熵正则化避免过于确定性的策略。
外层部分目标是找到最能够区分专家策略和其他策略的成本函数 \(c\)，形式化为：

\[ IRL(\pi_E) = \operatorname*{\arg\max}_{c \in \mathcal{C}} \left( \min_{\pi \in \Pi} -H(\pi) + E_\pi[c(s,a)] - E_{\pi_E}[c(s,a)] \right) \qquad (3) \]

其中 \(E_{\pi_E}[c(s,a)]\) 是专家策略 \(\pi_E\) 的期望成本。

MCE IRL 框架有效的原因是：专家被认为在某一个未知成本函数下是近似最优的，而 MCE IRL 就试图找到这个成本函数，其标准就是专家比所有其他策略都表现更好。但是内外两层循环就引入了计算复杂度问题，每一次评估成本函数都需要解决一个强化学习问题。即使恢复了成本函数，还需要再次运行 RL 来获得策略，并不能直接引导学习策略。

3 Characterizing the Induced Optimal Policy¶

我们首先研究通过对成本函数进行 IRL 学习得到的策略的性质。其中