Generative Adversarial Imitation Learning¶
约 600 个字 预计阅读时间 2 分钟
Abstract
0 Most Important Things¶
1 Introduction¶
2 Background¶
对于一个专家策略 \(\pi_E\),我们希望使用 IRL 来理解它,我们使用最大因果熵 IRL/Maximal Causal Entropy IRL/MCE IRL 来从一个函数族 \(\mathcal{C}\) 中拟合一个成本函数 \(c\),形式化为下面的优化问题:
其中 \(H(\pi) \triangleq E_\pi[-\log \pi(a|s)]\) 是策略 \(\pi\) 的 \(\gamma\) 折扣因果熵。并且这里 \(\pi_E\) 只能通过在环境中执行 \(\pi_E\) 采样的轨迹集合来提供,所以公式 (1) 中 \(\pi_E\) 的期望成本使用这些样本来估计。
最大因果熵 IRL 寻找一个成本函数 \(c \in \mathcal{C}\),该函数给专家策略分配低成本,给其他策略分配高成本,从而允许通过特定的强化学习过程找到专家策略。具体执行分为外层和内层两部分:
-
内层部分在给定成本函数 \(c\) 的情况下,找到最小化累计成本的高熵最优策略 \(\pi\),形式化为:
\[ RL(c) = \operatorname*{\arg\min}_{\pi \in \Pi} -H(\pi) + E_\pi[c(s,a)] \qquad (2) \]其中因果熵 \(H(\pi)\) 衡量策略 \(\pi\) 的随机性,熵越大,策略越随机。熵正则化避免过于确定性的策略。
-
外层部分目标是找到最能够区分专家策略和其他策略的成本函数 \(c\),形式化为:
\[ IRL(\pi_E) = \operatorname*{\arg\max}_{c \in \mathcal{C}} \left( \min_{\pi \in \Pi} -H(\pi) + E_\pi[c(s,a)] - E_{\pi_E}[c(s,a)] \right) \qquad (3) \]其中 \(E_{\pi_E}[c(s,a)]\) 是专家策略 \(\pi_E\) 的期望成本。
MCE IRL 框架有效的原因是:专家被认为在某一个未知成本函数下是近似最优的,而 MCE IRL 就试图找到这个成本函数,其标准就是专家比所有其他策略都表现更好。但是内外两层循环就引入了计算复杂度问题,每一次评估成本函数都需要解决一个强化学习问题。即使恢复了成本函数,还需要再次运行 RL 来获得策略,并不能直接引导学习策略。
3 Characterizing the Induced Optimal Policy¶
我们首先研究通过对成本函数进行 IRL 学习得到的策略的性质。其中