Introduction to Online Learning¶

约 458 个字预计阅读时间 2 分钟

Table of Contents¶

Introduction¶

下面是几个在线学习的例子：

序贯投资/Sequential Investment：初始资金为 \(W_1\)，在每一天 \(t = 1, 2, \ldots,\)
- 决定 \(p_t \in \Delta(N) \overset{\text{def}}{=} \{ p \in \mathbb{R}^N_{+} \mid \sum_{i=1}^N p(i) = 1 \}\)，并且在 \(i\) 上投资 \(W_{t-1} p_t(i)\)
- 在当天的最后观察到价格 \(r_t \in \mathbb{R}^N\)，并且计算当天的财富为 \(W_{t+1} = W_t \langle p_t, r_t \rangle\)

所有这些问题本质上都可以通过一个称为在线凸优化/Online Convex Optimization/OCO 的学习模型来捕捉。OCO 可以被视为学习者/玩家与环境/对手之间的博弈。在游戏开始前，玩家被给定一个固定的紧凸集 \(\Omega\) 作为动作空间。然后游戏进行 \(T\) 轮，其中 \(T\) 是某个整数。在每一轮 \(t = 1, \ldots, T\) 中，

玩家首先选择一个点 \(w_t \in \Omega\)；
环境然后选择一个凸损失函数 \(f_t : \Omega \to [0, 1]\)；
玩家遭受损失 \(f_t(w_t)\)，并观察关于 \(f_t\) 的一些信息。

根据环境的能力，有几种可能的设置：

随机设置/Stochastic Setting：\(f_1, \ldots, f_T\) 是固定分布的独立同分布样本；
遗忘对手/Oblivious Adversary：\(f_1, \ldots, f_T\) 是任意的，但在游戏开始前就已确定（即独立于玩家的行动）；
非遗忘/自适应对手/Non-oblivious/Adaptive Adversary：对于每个 \(t\)，\(f_t\) 依赖于 \(w_1, \ldots, w_t\)。

根据反馈模型，也有几种可能的设置：

完整信息设置/Full Information Setting：玩家观察到 \(f_t\)（或有时仅观察到（次）梯度 \(\nabla f_t(w_t)\)）；
赌博机设置/Bandit Setting：玩家仅观察到 \(f_t(w_t)\)；
其他部分信息设置/Other Partial Information Settings。