跳转至

Chapter 4: 泛化界

约 5003 个字 预计阅读时间 17 分钟

1. 有限假设空间对应的泛化误差上界

1.1 问题可分

对于可分的有限假设空间 \(\mathcal{H}\),目标概念 \(c \in \mathcal{H}\),任何在训练集 \(D\) 上犯错的假设都不是要找的目标概念。因此可以剔除这些在训练集 \(D\) 上犯错的假设,最终剩下与 \(D\) 一致的假设,目标概念一定存在于这些一致的假设中。如果 \(D\) 足够大,则最终剩下的一致假设会很少,从而能够以较大的概率找到目标概念的近似。然而由于实际中数据集 \(D\) 通常只包含有限数量的样本,所以假设空间 \(\mathcal{H}\) 中会剩下不止一个与 \(D\) 一致的等效假设,这些等效假设无法通过数据集 \(D\) 再进行区分。一般来说,无法强求通过训练集 \(D\) 能够确保找到目标概念 \(c\)。在 PAC 学习理论中,只要训练集 \(D\) 的规模能使学习算法 \(\mathfrak{L}\) 以至少 \(1 - \delta\) 的概率找到目标概念的 \(\epsilon\) 近似即可。当 \(\mathcal{H}\) 为可分的有限假设空间时,有下面的定理成立:

定理 1.1:令 \(\mathcal{H}\) 为可分的有限假设空间,\(D\) 为从 \(\mathcal{D}\) 独立同分布采样得到的大小为 \(m\) 的训练集,学习算法 \(\mathfrak{L}\) 基于训练集 \(D\) 输出与训练集一致的假设 \(h \in \mathcal{H}\),对于 \(0 < \epsilon,\delta < 1\),若 \(m \geq \frac{1}{\epsilon}(\ln |\mathcal{H}| + \ln \frac{1}{\delta})\),则有

\[P(E(h) \leq \epsilon) \geq 1 - \delta,\]

\(E(h) \leq \epsilon\) 以至少 \(1 - \delta\) 的概率成立。

证明

学习算法 \(\mathfrak{L}\) 输出与训练集一致的假设 \(h \in \mathcal{H}\),该假设的泛化误差依赖于训练集 \(D\),我们希望能够以较大的概率找到与目标概念 \(c\) 近似的假设。若 \(h\) 的泛化误差太大且与训练集一致,则这样的假设出现的概率可以表示为

\[P(\exists h \in \mathcal{H} : E(h) > \epsilon \land \widehat{E}(h) = 0).\]

下面只需证明这一概率至多为 \(\delta\) 即可。通过计算可知

\[P(\exists h \in \mathcal{H} : E(h) > \epsilon \land \widehat{E}(h) = 0) \leq \sum_{h\in\mathcal{H}} P(E(h) > \epsilon \land \widehat{E}(h) = 0) \leq |\mathcal{H}|(1-\epsilon)^m.\]

第一个不等号是因为 \(E(h) > \epsilon\) 表明 \(h\) 犯错的概率大于 \(\epsilon\),也就是预测正确率小于 \(1-\epsilon\),而 \(\widehat{E}(h) = 0\) 表明 \(h\)\(m\) 个独立同分布采样得到的样本被 \(h\) 均预测正确,这个事件的发生概率不大于 \((1 - \epsilon)^m\)

因此只需要保证 \(|\mathcal{H}|(1-\epsilon)^m\) 最右端不大于 \(\delta\) 即可。由于 \((1-\epsilon)^m \leq e^{-\epsilon m}\),若 \(m \geq \frac{1}{\epsilon}(\ln |\mathcal{H}| + \ln \frac{1}{\delta})\),则有

\[|\mathcal{H}|(1-\epsilon)^m \leq |\mathcal{H}|e^{-\epsilon m} \leq \delta.\]

从而可知 \(P(E(h) \leq \epsilon) \geq 1 - \delta\),即 \(P(E(h) \leq \epsilon) \geq 1 - \delta\),定理得证。

这个定理表明,当假设空间 \(\mathcal{H}\) 是有限可分时,学习算法 \(\mathfrak{L}\) 输出假设的泛化误差依赖于假设空间的大小 \(|\mathcal{H}|\) 和训练集的大小 \(m\),随着训练集中样本数目的逐渐增加,泛化误差的上界逐渐趋近于 0,收敛率是 \(O(1/m)\)

1.2 问题不可分

在不可分情形时,目标概念不在假设空间中,假设空间中的每个假设都会或多或少地出现分类错误,我们不再着眼于找到目标概念的 \(\epsilon\) 近似,而是希望找到假设空间中泛化误差最小假设的 \(\epsilon\) 近似。对于学习算法输出的假设 \(h\) 来说,泛化误差是其在未见数据上的预测能力,无法直接核测得到,但其在训练集上的经验误差是可以直接观测得到的。定理 2.1 探讨了泛化误差与经验误差之间的关系,表明当训练集中样本数目 \(m\) 较大时,\(h\) 的经验误差是泛化误差的较好近似。基于这一关系,可以给出下面的定理。

定理 1.2:令 \(\mathcal{H}\) 为有限假设空间,\(D\) 为从 \(\mathcal{D}\) 独立同分布采样得到的大小为 \(m\) 的训练集,\(h \in \mathcal{H}\),对于 \(0 < \epsilon,\delta < 1\)

\[P(E(h) \leq \widehat{E}(h) + \sqrt{\frac{\ln |\mathcal{H}| + \ln(2/\delta)}{2m}}) \geq 1 - \delta.\]

证明

\(\mathcal{H}\) 中的有限假设记为 \(h_1,h_2,\ldots,h_{|\mathcal{H}|}\),通过计算和并集界定理可得

\[\begin{aligned} P(\exists h \in \mathcal{H} : E(h) > \widehat{E}(h) + \epsilon) &= P\left(\left(E(h_1) > \widehat{E}(h_1) + \epsilon\right) \vee \cdots \vee \left(E(h_{|\mathcal{H}|}) > \widehat{E}(h_{|\mathcal{H}|}) + \epsilon\right)\right) \\ &\leq \sum_{h\in\mathcal{H}} P\left(E(h) > \widehat{E}(h) + \epsilon\right). \end{aligned}\]

基于引理 2.1,令 \(2\exp(-2m\epsilon^2) = \delta/|\mathcal{H}|\) 可得

\[\sum_{h\in\mathcal{H}} P\left(E(h) > \widehat{E}(h) + \epsilon\right) \leq \sum_{h\in\mathcal{H}} \delta/|\mathcal{H}| \leq |\mathcal{H}| \cdot \delta/|\mathcal{H}| = \delta.\]

\(2\exp(-2m\epsilon^2) = \delta/|\mathcal{H}|\) 可求解 \(\epsilon = \sqrt{\frac{\ln |\mathcal{H}| + \ln(2/\delta)}{2m}}\),从而定理得证。

由于 \(\sqrt{\frac{\ln |\mathcal{H}| + \ln(2/\delta)}{2m}} = O(1/\sqrt{m})\),所以在有限假设空间不可分情形下,泛化误差的收敛率为 \(O(1/\sqrt{m})\)

2. 无限假设空间对应的泛化误差上界

2.1 有限 VC 维假设空间的泛化误差界

引理 4.1:对于假设空间 \(\mathcal{H}\)\(h \in \mathcal{H}\)\(m \in \mathbb{N}\)\(0 < \epsilon < 1\),当 \(m \geq 2/\epsilon^2\) 时有

\[P\left(|E(h) - \widehat{E}(h)| > \epsilon\right) < 4\Pi_{\mathcal{H}}(2m)\exp\left(-\frac{m\epsilon^2}{8}\right).\]

证明

考虑两个大小均为 \(m\) 且分别从 \(\mathcal{D}\) 独立同分布采样得到的训练集 \(D\)\(D^{\prime}\)。首先证明

\[P\left(\sup_{h\in\mathcal{H}}|\widehat{E}_D(h) - \widehat{E}_{D^{\prime}}(h)| \geq \frac{1}{2}\epsilon\right) \geq \frac{1}{2}P\left(\sup_{h\in\mathcal{H}}|E(h) - \widehat{E}_D(h)| > \epsilon\right).\]

\(Q\) 表示集合

\[\left\{D \sim \mathcal{D}^m\left|\sup_{h\in\mathcal{H}}|E(h) - \widehat{E}_D(h)| > \epsilon\right.\right\},\]

其中 \(D \sim \mathcal{D}^m\) 表示从 \(\mathcal{D}\) 独立同分布采样得到的大小为 \(m\) 的训练集。计算可得

\[\begin{aligned} P\left(\sup_{h\in\mathcal{H}}|\widehat{E}_D(h) - \widehat{E}_{D^{\prime}}(h)| \geq \frac{1}{2}\epsilon\right) &= \mathbb{E}_{D,D^{\prime}\sim\mathcal{D}^m}\left[\mathbb{I}\left(\sup_{h\in\mathcal{H}}|\widehat{E}_D(h) - \widehat{E}_{D^{\prime}}(h)| \geq \frac{1}{2}\epsilon\right)\right] \\ &= \mathbb{E}_{D\sim\mathcal{D}^m}\left[\mathbb{E}_{D^{\prime}\sim\mathcal{D}^m}\left[\mathbb{I}\left(\sup_{h\in\mathcal{H}}|\widehat{E}_D(h) - \widehat{E}_{D^{\prime}}(h)| \geq \frac{1}{2}\epsilon\right)\right]\right] \\ &\geq \mathbb{E}_{D\in Q}\left[\mathbb{E}_{D^{\prime}\sim\mathcal{D}^m}\left[\mathbb{I}\left(\sup_{h\in\mathcal{H}}|\widehat{E}_D(h) - \widehat{E}_{D^{\prime}}(h)| \geq \frac{1}{2}\epsilon\right)\right]\right]. \end{aligned}\]

第三行的不等式是因为 \(\mathbb{E}_{D\notin Q}[\cdot] \geq 0\)。对于任意 \(D \in Q\),存在一个假设 \(h_0 \in \mathcal{H}\) 使得 \(|E(h_0) - \widehat{E}_D(h_0)| > \epsilon\)。对于 \(h_0\),计算可得

\[\begin{aligned} \mathbb{E}_{D^{\prime}\sim\mathcal{D}^m}\left[\mathbb{I}\left(\sup_{h\in\mathcal{H}}|\widehat{E}_D(h) - \widehat{E}_{D^{\prime}}(h)| \geq \frac{1}{2}\epsilon\right)\right] &\geq \mathbb{E}_{D^{\prime}\sim\mathcal{D}^m}\left[\mathbb{I}\left(|\widehat{E}_D(h_0) - \widehat{E}_{D^{\prime}}(h_0)| \geq \frac{1}{2}\epsilon\right)\right] \\ &= \mathbb{E}_{D^{\prime}\sim\mathcal{D}^m}\left[\mathbb{I}\left(|(\widehat{E}_D(h_0) - E(h_0)) - (\widehat{E}_{D^{\prime}}(h_0) - E(h_0))| \geq \frac{1}{2}\epsilon\right)\right] \\ &\geq \mathbb{E}_{D^{\prime}\sim\mathcal{D}^m}\left[\mathbb{I}\left(|\widehat{E}_D(h_0) - E(h_0)| - |\widehat{E}_{D^{\prime}}(h_0) - E(h_0)| \geq \frac{1}{2}\epsilon\right)\right]. \end{aligned}\]

这两个不等号分别利用了 \(\sup\) 的性质和绝对值的性质。注意到 \(|E(h_0) - \widehat{E}_D(h_0)| > \epsilon\),若 \(|\widehat{E}_{D^{\prime}}(h_0) - E(h_0)| \leq \frac{1}{2}\epsilon\),则 \(|\widehat{E}_D(h_0) - E(h_0)| - |\widehat{E}_{D^{\prime}}(h_0) - E(h_0)| \geq \frac{1}{2}\epsilon\) 成立。从而基于上面的不等式可得

\[\begin{aligned} \mathbb{E}_{D^{\prime}\sim\mathcal{D}^m}\left[\mathbb{I}\left(\sup_{h\in\mathcal{H}}|\widehat{E}_D(h) - \widehat{E}_{D^{\prime}}(h)| \geq \frac{1}{2}\epsilon\right)\right] &\geq \mathbb{E}_{D^{\prime}\sim\mathcal{D}^m}\left[\mathbb{I}\left(|\widehat{E}_D(h_0) - E(h_0)| - |\widehat{E}_{D^{\prime}}(h_0) - E(h_0)| \geq \frac{1}{2}\epsilon\right)\right] \\ &\geq \mathbb{E}_{D^{\prime}\sim\mathcal{D}^m}\left[\mathbb{I}\left(|\widehat{E}_{D^{\prime}}(h_0) - E(h_0)| \leq \frac{1}{2}\epsilon\right)\right] \\ &= P\left(|\widehat{E}_{D^{\prime}}(h_0) - E(h_0)| \leq \frac{1}{2}\epsilon\right) \\ &= 1 - P\left(|\widehat{E}_{D^{\prime}}(h_0) - E(h_0)| > \frac{1}{2}\epsilon\right). \end{aligned}\]

再有 Chebyshev 不等式:

\[P\left(|\widehat{E}_{D'}(h_0) - E(h_0)| > \frac{1}{2}\epsilon\right) \leq \frac{4(1-E(h_0))E(h_0)}{\epsilon^2m} \leq \frac{1}{\epsilon^2m}.\]

这里其实需要证明 \(\mathbb{V}_{D^{\prime}}(\widehat{E}_{D^{\prime}}(h_0)) = E(h_0)(1-E(h_0))/m\),这里没证明,我也不知道怎么证明的。

\(m \geq 2/\epsilon^2\) 时,\(P\left(|\widehat{E}_{D'}(h_0) - E(h_0)| > \frac{1}{2}\epsilon\right) \leq 1/2\)。于是可得

\[P\left(\sup_{h\in\mathcal{H}}|\widehat{E}_D(h) - \widehat{E}_{D'}(h)| \geq \frac{1}{2}\epsilon\right) \geq \mathbb{E}_{D\in Q}\left[\frac{1}{2}\right] = \frac{1}{2}P\left(\sup_{h\in\mathcal{H}}|E(h) - \widehat{E}_D(h)| > \epsilon\right).\]

这样,我们要证明的东西就成立了,我们下面对 \(P\left(\sup_{h\in\mathcal{H}}|\widehat{E}_D(h) - \widehat{E}_{D^{\prime}}(h)| \geq \frac{1}{2}\epsilon\right)\) 进行进一步的分析。

由于 \(D\)\(D^{\prime}\) 均为从 \(\mathcal{D}\) 独立同分布采样得到的大小为 \(m\) 的训练集,则 \(D\)\(D^{\prime}\) 一共包含 \(2m\) 个样本(这 \(2m\) 个样本有可能重复)。若令 \(T_i\) 表示这 \(2m\) 个样本上的置换,则有 \((2m)!\)\(T_i\)。令 \(T_iD\) 表示 \(2m\) 个样本经过置换 \(T_i\) 的前 \(m\) 个样本,\(T_iD^{\prime}\) 表示这 \(2m\) 个样本经过置换 \(T_i\) 的后 \(m\) 个样本,则对于 \(D\)\(D^{\prime}\)\(T_iD\)\(T_iD^{\prime}\)

\[P\left(\sup_{h\in\mathcal{H}}|\widehat{E}_D(h) - \widehat{E}_{D^{\prime}}(h)| \geq \frac{1}{2}\epsilon\right) = P\left(\sup_{h\in\mathcal{H}}|\widehat{E}_{T_iD}(h) - \widehat{E}_{T_iD^{\prime}}(h)| \geq \frac{1}{2}\epsilon\right).\]

因此有

\[\begin{aligned} P\left(\sup_{h\in\mathcal{H}}|\widehat{E}_D(h) - \widehat{E}_{D^{\prime}}(h)| \geq \frac{1}{2}\epsilon\right) &= \mathbb{E}_{D,D^{\prime}}\left[\frac{1}{(2m)!}\sum_{i=1}^{(2m)!}\mathbb{I}\left(\sup_{h\in\mathcal{H}}|\widehat{E}_{T_iD}(h) - \widehat{E}_{T_iD^{\prime}}(h)| \geq \frac{1}{2}\epsilon\right)\right] \\ &= \mathbb{E}_{D,D^{\prime}}\left[\frac{1}{(2m)!}\sum_{i=1}^{(2m)!}\sup_{h\in\mathcal{H}}\mathbb{I}\left(|\widehat{E}_{T_iD}(h) - \widehat{E}_{T_iD^{\prime}}(h)| \geq \frac{1}{2}\epsilon\right)\right] \\ &\leq \mathbb{E}_{D,D^{\prime}}\left[\sum_{h\in\mathcal{H}_{\mid D+D^{\prime}}} \frac{1}{(2m)!}\sum_{i=1}^{(2m)!}\mathbb{I}\left(|\widehat{E}_{T_iD}(h) - \widehat{E}_{T_iD^{\prime}}(h)| \geq \frac{1}{2}\epsilon\right)\right]. \end{aligned}\]

其中 \(\mathcal{H}_{\mid D + D^{\prime}}\)\(\mathcal{H}\) 在训练集 \(D + D^{\prime}\) 上的限制。接下来考虑

\[\sum_{i=1}^{(2m)!}\mathbb{I}\left(|\widehat{E}_{T_iD}(h) - \widehat{E}_{T_iD^{\prime}}(h)| \geq \frac{1}{2}\epsilon\right).\]

这表示对于给定假设 \(h\) 满足 \(|\widehat{E}_{T_iD}(h) - \widehat{E}_{T_iD^{\prime}}(h)| \geq \frac{1}{2}\epsilon\) 的置换数目。令 \(l\) 表示 \(h\)\(D + D^{\prime}\) 上预测正确的样本数目,有

\[\begin{aligned} \frac{1}{(2m)!}\sum_{i=1}^{(2m)!}\mathbb{I}\left(|\widehat{E}_{T_iD}(h) - \widehat{E}_{T_iD^{\prime}}(h)| \geq \frac{1}{2}\epsilon\right) = \sum_{\substack{k \in [l] \\ \text{s.t. } |2k/m - l/m| > \epsilon/2}} \frac{\binom{l}{k}\binom{2m - l}{m - k}}{\binom{2m}{m}} \leq 2\exp\left(-\frac{\epsilon^2m}{8}\right). \end{aligned}\]

这个式子的两段我们一段一段仔细分解:

  • 第一个等号:显然最左侧的式子可以看作一个概率,正例的示性函数值为 1,负例的示性函数值为 0,所以求和的结果就是正例的个数所占的比例,在古典概型中,这个比例就是正例的概率。\(k\) 表示 \(T_iD\) 中被 \(h\) 预测正确的样本数目,\(m-k\) 表示 \(T_iD\) 中被 \(h\) 预测错误的样本数目,\(\binom{l}{k}\) 表示从 \(l\) 个预测正确的样本中选择 \(k\) 个样本的种数,\(\binom{2m-l}{m-k}\) 表示从 \(2m-l\) 个预测错误的样本中选择 \(m-k\) 个样本的种数,\(\binom{2m}{m}\) 表示从 \(2m\) 个样本中选择 \(m\) 个样本构成 \(T_iD\) 的种数。若 \(|(m-k)/m - (m-l+k)/m| \geq \epsilon/2\),即 \(|2k/m - l/m| \geq \epsilon/2\),这也就是 \(|\widehat{E}_{T_iD}(h) - \widehat{E}_{T_iD'}(h)| \geq \frac{1}{2}\epsilon\)
  • 第二个小于等于号:被求和项看可以看作超几何分布的概率,内容是从 \(2m\) 个样本中抽取 \(m\) 个样本,其中有 \(k\) 个是正确的,\(m-k\) 个是错误的,将约束条件变形为 \(\lvert k - l/2 \rvert > m\epsilon/4\),注意到抽取 \(m\) 个样本中正确样本的期望值为 \(l/2\),所以约束条件可以看作是正确样本数目偏离期望值的程度大于 \(m\epsilon/4\),对其使用 Hoeffding 不等式可得不等式的结果。

因此,我们需要求的概率转化为

\[P\left(\sup_{h\in\mathcal{H}}|\widehat{E}_D(h) - \widehat{E}_{D'}(h)| \geq \frac{1}{2}\epsilon\right) \leq 2|\mathcal{H}_{\mid D+D^{\prime}}|\exp\left(-\frac{\epsilon^2m}{8}\right).\]

根据增长函数的定义可知 \(|\mathcal{H}_{\mid D+D^{\prime}}| \leq \Pi_{\mathcal{H}}(2m)\)。再结合最初证明的不等式,对于任意假设 \(h \in \mathcal{H}\) 可得

\[P\left(|E(h) - \widehat{E}_D(h)| > \epsilon\right) \leq P\left(\sup_{h\in\mathcal{H}}|E(h) - \widehat{E}(h)| > \epsilon\right) \leq 4\Pi_{\mathcal{H}}(2m)\exp\left(-\frac{m\epsilon^2}{8}\right).\]

这就完成了证明。

基于上述引理,再结合关于 VC 维与增长函数之间关系,有下面的定理。

定理 4.3:若假设空间 \(\mathcal{H}\) 的有限 VC 维为 \(d\)\(h \in \mathcal{H}\),则对 \(m > d\)\(0 < \delta < 1\)

\[P\left(|E(h) - \widehat{E}(h)| \leq \sqrt{\frac{8d\ln \frac{2em}{d} + 8\ln \frac{4}{\delta}}{m}}\right) \geq 1 - \delta.\]

证明

由定理 3.1 可知

\[4\Pi_{\mathcal{H}}(2m)\exp\left(-\frac{m\epsilon^2}{8}\right) \leq 4\left(\frac{2em}{d}\right)^d \exp\left(-\frac{m\epsilon^2}{8}\right).\]

\(4\left(\frac{2em}{d}\right)^d \exp\left(-\frac{m\epsilon^2}{8}\right) = \delta\) 可得

\[\epsilon = \sqrt{\frac{8d\ln \frac{2em}{d} + 8\ln \frac{4}{\delta}}{m}}.\]

将上式带入引理 4.1,定理得证。

通过此定理,我们可以知道 \(E(h) \leq \widehat{E}(h) + O\left(\sqrt{\frac{\ln(m/d)}{m/d}}\right)\) 以至少 \(1 - \delta\) 的概率成立,泛化误差的收敛率为 \(O\left(\sqrt{\frac{\ln(m/d)}{m/d}}\right)\)。对于有限 VC 维的假设空间,泛化误差的收敛率与 VC 维的大小有关,VC 维越大,假设空间越复杂,泛化误差的收敛率也越慢。其次,有限 VC 维的不可分假设空间比有限不可分假设空间更难收敛,这也是无限假设空间与有限假设空间的区别。

2.2 基于 Rademacher 复杂度的泛化误差界

对于从 \(\mathcal{D}\) 独立同分布采样得到的大小为 \(m\) 的训练集 \(Z\),函数空间 \(\mathcal{F}\) 关于 \(Z\) 的经验 Rademacher 复杂度和关于 \(\mathcal{D}\) 的 Rademacher 复杂度分别是 \(\widehat{\mathfrak{R}}_Z(\mathcal{F})\)\(\mathfrak{R}_m(\mathcal{F})\),基于 \(\widehat{\mathfrak{R}}_Z(\mathcal{F})\)\(\mathfrak{R}_m(\mathcal{F})\) 可以分析关于函数空间 \(\mathcal{F}\) 的泛化误差界。

定理 4.4:对于实值函数空间 \(\mathcal{F} : \mathcal{Z} \mapsto [0,1]\),从分布 \(\mathcal{D}\) 独立同分布采样得到的大小为 \(m\) 的训练集 \(Z = \{z_1,z_2,\ldots,z_m\}\)\(z_i \in \mathcal{Z}\)\(f \in \mathcal{F}\)\(0 < \delta < 1\),以至少 \(1 - \delta\) 的概率有

\[\begin{aligned} E(f) &\leq \widehat{E}(f) + 2\mathfrak{R}_m(\mathcal{F}) + \sqrt{\frac{\ln(1/\delta)}{2m}},\\ E(f) &\leq \widehat{E}(f) + 2\widehat{\mathfrak{R}}_Z(\mathcal{F}) + 3\sqrt{\frac{\ln(2/\delta)}{2m}}. \end{aligned}\]

证明

首先定义下面两个量:

\[\begin{aligned} \widehat{E}_Z(f) &= \frac{1}{m}\sum_{i=1}^m f(z_i),\\ \Phi(Z) &= \sup_{f\in\mathcal{F}}\left(\mathbb{E}[f] - \widehat{E}_Z(f)\right). \end{aligned}\]

\(Z^{\prime}\) 为与 \(Z\) 仅有一个样本不同的训练集,不妨设 \(z_m \in Z\)\(z'_m \in Z'\) 为不同样本,可得

\[\begin{aligned} \Phi(Z') - \Phi(Z) &= \sup_{f\in\mathcal{F}}\left(\mathbb{E}[f] - \widehat{E}_{Z'}(f)\right) - \sup_{f\in\mathcal{F}}\left(\mathbb{E}[f] - \widehat{E}_Z(f)\right)\\ &\leq \sup_{f\in\mathcal{F}}\left(\widehat{E}_Z(f) - \widehat{E}_{Z'}(f)\right)\\ &= \sup_{f\in\mathcal{F}}\frac{f(z_m) - f(z'_m)}{m} \leq \frac{1}{m}. \end{aligned}\]

同样可以得到

\[\Phi(Z) - \Phi(Z') \leq \frac{1}{m}.\]

从而可知

\[|\Phi(Z) - \Phi(Z')| \leq \frac{1}{m}.\]

这就表明了 \(\Phi(Z)\) 是关于 \(Z\) 差有界的。根据 McDiarmid 不等式可知,对于 \(0 < \delta < 1\)

\[\Phi(Z) \leq \mathbb{E}_Z[\Phi(Z)] + \sqrt{\frac{\ln(1/\delta)}{2m}}\]

以至少 \(1 - \delta\) 的概率成立。下面估计 \(\mathbb{E}_Z[\Phi(Z)]\) 的上界,在使用完 McDiarmid 不等式之后,我们可以不要求 \(Z^{\prime}\)\(Z\) 仅有一个样本不同,这两个集合就变成了分别从 \(\mathcal{F}\) 中独立同分布采样得到的两个训练集。

\[\begin{aligned} \mathbb{E}_Z[\Phi(Z)] &= \mathbb{E}_Z\left[\sup_{f\in\mathcal{F}}\left(\mathbb{E}[f] - \widehat{E}_Z(f)\right)\right]\\ &= \mathbb{E}_Z\left[\sup_{f\in\mathcal{F}}\mathbb{E}_{Z'}\left[\widehat{E}_{Z'}[f] - \widehat{E}_Z[f]\right]\right] \leq \mathbb{E}_{Z,Z'}\left[\sup_{f\in\mathcal{F}}\left(\widehat{E}_{Z'}[f] - \widehat{E}_Z[f]\right)\right]\\ &= \mathbb{E}_{Z,Z'}\left[\sup_{f\in\mathcal{F}}\frac{1}{m}\sum_{i=1}^m\left(f(z'_i) - f(z_i)\right)\right] = \mathbb{E}_{\sigma,Z,Z'}\left[\sup_{f\in\mathcal{F}}\frac{1}{m}\sum_{i=1}^m \sigma_i\left(f(z'_i) - f(z_i)\right)\right]\\ &\leq \mathbb{E}_{\sigma,Z'}\left[\sup_{f\in\mathcal{F}}\frac{1}{m}\sum_{i=1}^m \sigma_if(z'_i)\right] + \mathbb{E}_{\sigma,Z}\left[\sup_{f\in\mathcal{F}}\frac{1}{m}\sum_{i=1}^m -\sigma_if(z_i)\right]\\ &= 2\mathbb{E}_{\sigma,Z}\left[\sup_{f\in\mathcal{F}}\frac{1}{m}\sum_{i=1}^m \sigma_if(z_i)\right]\\ &= 2\mathfrak{R}_m(\mathcal{F}). \end{aligned}\]

有下面几点需要注意:

  • 第二个等号是对 \(Z^{\prime}\) 的期望,这里其实也可以看出来 \(Z^{\prime}\) 不可能是与 \(Z\) 仅有一个样本不同的集合。
  • 第二行的不等号来自于 Jensen 不等式,利用了 \(\sup\) 的凸性。
  • 第三行第二个等号利用了对称化的想法,在「机器学习算法的数学分析」的笔记中有介绍,其中由于 \(z_i\)\(z^\prime_i\) 是独立同分布的,所以 \(f(z_i) - f(z^\prime_i)\) 的分布关于原点对称,再乘以一个 Rademacher 随机变量 \(\sigma_i\),当然不应强分布和均值。
  • 后面的推导就是很自然的事情了。

这样,对于任意的 \(f\in \mathcal{F}\),有

\[\mathbb{E}[f] - \widehat{E}_Z(f) \leq \sup_{f\in\mathcal{F}}\left(\mathbb{E}[f] - \widehat{E}_Z(f)\right) = \Phi(Z) \leq \mathbb{E}_Z[\Phi(Z)] + \sqrt{\frac{\ln(1/\delta)}{2m}} = 2\mathfrak{R}_m(\mathcal{F}) + \sqrt{\frac{\ln(1/\delta)}{2m}}.\]

因此,我们要的第一个式子得证。再然后,我们知道改变训练集中的一个样本后经验 Rademacher 复杂度最多改变 \(1/m\),即 \(|\widehat{\mathfrak{R}}_Z(\mathcal{F}) - \widehat{\mathfrak{R}}_{Z'}(\mathcal{F})| \leq 1/m\)。再根据 McDiarmid 不等式可知:

\[\widehat{\mathfrak{R}}_Z(\mathcal{F}) \leq \widehat{\mathfrak{R}}_{Z'}(\mathcal{F}) + \sqrt{\frac{\ln(2/\delta)}{2m}}\]

以至少 \(1 - \delta/2\) 的概率成立。还有

\[\Phi(Z) \leq \mathbb{E}_Z[\Phi(Z)] + \sqrt{\frac{\ln(2/\delta)}{2m}}\]

以至少 \(1 - \delta/2\) 的概率成立。将上面两个不等式带入到下面的式子中,利用联合界不等式可得:

\[\Phi(Z) \leq 2\widehat{\mathfrak{R}}_Z(\mathcal{F}) + 3\sqrt{\frac{\ln(2/\delta)}{2m}}\]

以至少 \(1 - \delta\) 的概率成立,从而第二个式子得证。

定理 4.4 的适用范围是实值函数空间 \(\mathcal{F} : \mathcal{Z} \mapsto [0,1]\),一般用于回归问题。对于分类问题有下面的定理。

定理 4.5:对于假设空间 \(\mathcal{H} : \mathcal{X} \mapsto \{-1,+1\}\),从分布 \(\mathcal{D}\) 独立同分布采样得到的大小为 \(m\) 的训练集 \(D = \{\boldsymbol{x}_1,\ldots,\boldsymbol{x}_m\}\)\(\boldsymbol{x}_i \in \mathcal{X}\)\(h \in \mathcal{H}\)\(0 < \delta < 1\),以至少 \(1 - \delta\) 的概率有

\[\begin{aligned} E(h) &\leq \widehat{E}(h) + \mathfrak{R}_m(\mathcal{H}) + \sqrt{\frac{\ln(1/\delta)}{2m}},\\ E(h) &\leq \widehat{E}(h) + \widehat{\mathfrak{R}}_D(\mathcal{H}) + 3\sqrt{\frac{\ln(2/\delta)}{2m}}. \end{aligned}\]

证明

对于二分类问题的假设空间 \(\mathcal{H}\),令 \(\mathcal{Z} = \mathcal{X} \times \{-1,+1\}\)\(\mathcal{H}\) 中的假设 \(h\) 可以变形为 \(f_h(z) = f_h(\boldsymbol{x},y) = \mathbb{I}(h(\boldsymbol{x}) \neq y)\)。于是值域为 \(\{-1,+1\}\) 的假设空间 \(\mathcal{H}\) 转化为值域为 \([0,1]\) 的函数空间 \(\mathcal{F}_{\mathcal{H}} = \{f_h : h \in \mathcal{H}\}\)。从 Rademacher 复杂度的定义可知

\[\begin{aligned} \widehat{\mathfrak{R}}_Z(\mathcal{F}_{\mathcal{H}}) &= \mathbb{E}_{\boldsymbol{\sigma}}\left[\sup_{f_h\in\mathcal{F}_{\mathcal{H}}} \frac{1}{m}\sum_{i=1}^m \sigma_if_h(\boldsymbol{x}_i,y_i)\right] = \mathbb{E}_{\boldsymbol{\sigma}}\left[\sup_{h\in\mathcal{H}} \frac{1}{m}\sum_{i=1}^m \sigma_i\mathbb{I}(h(\boldsymbol{x}_i) \neq y_i)\right]\\ &= \mathbb{E}_{\boldsymbol{\sigma}}\left[\sup_{h\in\mathcal{H}} \frac{1}{m}\sum_{i=1}^m \sigma_i\frac{1-y_ih(\boldsymbol{x}_i)}{2}\right] = \frac{1}{2}\mathbb{E}_{\boldsymbol{\sigma}}\left[\frac{1}{m}\sum_{i=1}^m \sigma_i + \sup_{h\in\mathcal{H}} \frac{1}{m}\sum_{i=1}^m (-y_i\sigma_ih(\boldsymbol{x}_i))\right]\\ &= \frac{1}{2}\mathbb{E}_{\boldsymbol{\sigma}}\left[\sup_{h\in\mathcal{H}} \frac{1}{m}\sum_{i=1}^m (-y_i\sigma_ih(\boldsymbol{x}_i))\right] = \frac{1}{2}\mathbb{E}_{\boldsymbol{\sigma}}\left[\sup_{h\in\mathcal{H}} \frac{1}{m}\sum_{i=1}^m (\sigma_ih(\boldsymbol{x}_i))\right]\\ &= \frac{1}{2}\widehat{\mathfrak{R}}_D(\mathcal{H}). \end{aligned}\]
  • 第一行和第二行的等号都是纯粹的代入;
  • 第三行的第一个等号利用了 \(\sigma\) 的均匀分布的性质,第二个等号利用了 \(-y_i\sigma_i\)\(\sigma_i\) 等价的性质;
  • 后面就自然了。

同时对上式两边取期望可得

\[\mathfrak{R}_Z(\mathcal{F}_{\mathcal{H}}) = \frac{1}{2}\mathfrak{R}_D(\mathcal{H}).\]

将上式代入定理 4.4,定理得证。

3. 泛化误差下界

3.1 可分情景

3.2 不可分情景

4. 分析实例