跳转至

Chapter 1 Introduction

约 567 个字 预计阅读时间 2 分钟

1. Standard Model for Supervised Learning

监督学习:

  • 观察一个输入的随机变量/特征向量 \(X \in \mathbb{R}^d\),表示已知信息;
  • 观察一个输出变量/标签 \(Y\),表示我们想要预测的未知信息;
  • 目标是基于 \(X\) 预测 \(Y\)

预测规则/Prediction Rules 是由参数化函数 \(f(w, \cdot): \mathbb{R}^d \rightarrow \mathbb{R}^k\) 得到的,其中 \(w \in \Omega\) 是可以在训练数据上学习的模型参数。对于 \(k\)-类分类问题,其中 \(Y \in \{1, \ldots, k\}\),我们使用以下预测规则预测 \(Y\),给定函数 \(f(w, x) = [f_1(w, x), \ldots, f_k(w, x)] \in \mathbb{R}^k\)

\[ q(x) = \operatorname*{\arg\max}\limits_{\ell \in \{1, \ldots, k\}} f_{\ell}(w, x). \]

预测质量由损失函数/Loss Function \(L(f(x), y)\) 来衡量:损失越小,预测准确性越高。

监督学习是的目标基于观察/标记的历史数据 \(\mathcal{S}_n = \{(X_1, Y_1), \ldots, (X_n, Y_n)\}\) 估计 \(\hat{w} \in \Omega\),有了这个参数,我们就可以确定参数化的预测规则,进而给出我们的预测。监督学习算法 \(\mathcal{A}\) 接受训练数据集 \(\mathcal{S}_n\) 作为输入,并输出一个函数 \(f(\hat{w}, \cdot)\),其中 \(\hat{w} = \mathcal{A}(\mathcal{S}_n) \in \Omega\)。最常见的算法是经验风险最小化/ERM

\[ \hat{w} = \mathop{\arg\min}\limits_{w \in \Omega} \frac{1}{n} \sum_{i=1}^{n} L(f(w, X_i), Y_i). \]

可以看到,我们学习到的参数就是使得训练数据上的损失最小的参数。在标准的理论模型中,我们假设训练数据 \(\{(X_i, Y_i) : i = 1, \ldots, n\}\)独立同分布/iid/Independent and Identically Distributed,服从某个未知的底层分布 \(\mathcal{D}\)。分类器 \(\hat{f}(x) = f(\hat{w}, x)\) 在训练数据上的损失就是训练误差:

\[ \mathop{\text{training-loss}}(\hat{w}) = \frac{1}{n} \sum_{i=1}^{n} L(f(\hat{w}, X_i), Y_i). \]

同样,我们也假设测试数据(未来未见数据) \((X, Y)\) 也服从同一个分布 \(\mathcal{D}\),我们感兴趣的是在测试数据上的泛化误差,定义为:

\[ \mathop{\text{test-loss}}(\hat{w}) = \mathbb{E}_{(X, Y) \sim \mathcal{D}}[L(f(\hat{w}, X), Y)]. \]

由于我们只观测到了 \(\hat{f} = f(\hat{w}, \cdot)\) 的训练误差,