跳转至

Generative Adversarial Imitation Learning

约 600 个字 预计阅读时间 2 分钟

Abstract

0 Most Important Things

1 Introduction

2 Background

对于一个专家策略 \(\pi_E\),我们希望使用 IRL 来理解它,我们使用最大因果熵 IRL/Maximal Causal Entropy IRL/MCE IRL 来从一个函数族 \(\mathcal{C}\) 中拟合一个成本函数 \(c\),形式化为下面的优化问题:

\[ \max_{c \in \mathcal{C}} \left( \min_{\pi \in \Pi} -H(\pi) + E_\pi[c(s,a)] - E_{\pi_E}[c(s,a)] \right) \qquad (1) \]

其中 \(H(\pi) \triangleq E_\pi[-\log \pi(a|s)]\) 是策略 \(\pi\)\(\gamma\) 折扣因果熵。并且这里 \(\pi_E\) 只能通过在环境中执行 \(\pi_E\) 采样的轨迹集合来提供,所以公式 (1) 中 \(\pi_E\) 的期望成本使用这些样本来估计。

最大因果熵 IRL 寻找一个成本函数 \(c \in \mathcal{C}\),该函数给专家策略分配低成本,给其他策略分配高成本,从而允许通过特定的强化学习过程找到专家策略。具体执行分为外层和内层两部分:

  • 内层部分在给定成本函数 \(c\) 的情况下,找到最小化累计成本的高熵最优策略 \(\pi\),形式化为:

    \[ RL(c) = \operatorname*{\arg\min}_{\pi \in \Pi} -H(\pi) + E_\pi[c(s,a)] \qquad (2) \]

    其中因果熵 \(H(\pi)\) 衡量策略 \(\pi\) 的随机性,熵越大,策略越随机。熵正则化避免过于确定性的策略。

  • 外层部分目标是找到最能够区分专家策略和其他策略的成本函数 \(c\),形式化为:

    \[ IRL(\pi_E) = \operatorname*{\arg\max}_{c \in \mathcal{C}} \left( \min_{\pi \in \Pi} -H(\pi) + E_\pi[c(s,a)] - E_{\pi_E}[c(s,a)] \right) \qquad (3) \]

    其中 \(E_{\pi_E}[c(s,a)]\) 是专家策略 \(\pi_E\) 的期望成本。

MCE IRL 框架有效的原因是:专家被认为在某一个未知成本函数下是近似最优的,而 MCE IRL 就试图找到这个成本函数,其标准就是专家比所有其他策略都表现更好。但是内外两层循环就引入了计算复杂度问题,每一次评估成本函数都需要解决一个强化学习问题。即使恢复了成本函数,还需要再次运行 RL 来获得策略,并不能直接引导学习策略。

3 Characterizing the Induced Optimal Policy

我们首先研究通过对成本函数进行 IRL 学习得到的策略的性质。其中