【机器学习】L0-绪论

以两种不同的视角回顾机器学习的部分学习资料。

  • 频率派 - 统计机器学习

  • 贝叶斯派 - 概率图模型

如何看待不同视角下的机器学习? 频率派 VS 贝叶斯派

经典书籍推荐

  • 《统计机器学习》 - 李航(第一版)
    • 十二章,最常用的十个算法(感 K 朴决逻,支提 E 隐条)
    • 大面积讲 - 频率派
  • “西瓜书” - 周志华
    • 比较全面,既有频率派,又有贝叶斯派
  • PRML
    • 回分神核稀,图混近采连
    • 主要是贝叶斯派
  • MLAPP
    • 百科全书
    • 主要是贝叶斯派
  • ESL
    • 主要是频率派
  • Deep Learning (圣经)- 中译版(张志华)

经典视频推荐

  • 台大 - 林轩田 - 基石 + 技法
  • 张志华
    • 机器学习导论 - 频率派
    • 统计机器学习 - 贝叶斯
  • Ng: CS229
    • 有数学推导
  • 徐亦达
    • 概率模型
  • 台大 - 李宏毅:机器学习

频率派 VS 贝叶斯派

一些标记

  • 对数据集(观测集)采用以下标记:
    • \(X_{N \times p}\) : 数据集(观测集)
      • \(X_{N \times p}=\left(x_{1}, x_{2}, \cdots, x_{N}\right)^{T}\)
        • \(N\) 表示样本个数,\(p\) 表示每个样本的维度。
      • 其中每个数据样本: \(x_{i}=\left(x_{i 1}, x_{i 2}, \cdots, x_{i p}\right)^{T}\)
    • \(\Theta\) : 参数
  • 每个数据样本 \(x \sim p(x,\Theta)\)\(\sim\) 表示服从于某个分布。
    • 即每个数据样本都是由 \(p(x,\Theta)\) 生成的。
  • \(\color{blue}{\text{我们想要求某个样本出现的概率,但是其出现概率与其分布的参数} \Theta \text{产生某种联系,所以求出} \Theta 是十分有必要的。}\)

频率派

假定 \(\Theta\) 是常量。

  • 假设每个样本是独立同分布的,对于整个数据集来说,\(p(X \mid \Theta) \overline{\overline{i i d}} \prod_{i}^{N} p\left(x_{i} \mid \Theta\right)\)
    • iid:independent & identically distributed - 独立同分布
  • 为了求 \(\Theta\) 的大小,采用最大对数似然估计(MLE)的方法:

\[\Theta_{MLE}=\underset{\Theta}{\operatorname{argmax}} \log p(X \mid \Theta) \overline{\overline{i i d}} \underset{\Theta}{\operatorname{argmax}} \sum_{i=1}^{N} \log p\left(x_{i} \mid \Theta\right)\]

  • \(log\) 的作用:将乘法变为加法,方便计算。
  • 频率派的一般求解步骤为:
    • 1.建立模型
    • 2.定义损失函数
    • 3.最优化损失函数

贝叶斯派

假定 \(\Theta\) 是变量。

  • 根据贝叶斯定理,依赖观测集参数的后验概率 \(P(\Theta \mid X)\) 可以写成:

\[p(\Theta \mid X)=\frac{p(X \mid \Theta) \cdot p(\Theta)}{p(X)}=\frac{p(X \mid \Theta) \cdot p(\Theta)}{\int_{\Theta} p(X \mid \Theta) \cdot p(\Theta) d \Theta}\]

\[\Theta_{M A P}=\underset{\Theta}{\operatorname{argmax}} p(\Theta \mid X)=\underset{\Theta}{\operatorname{argmax}} p(X \mid \Theta) \cdot p(\Theta)\]

  • 等式成立的原因是分母 \(p(X)\)\(\Theta\) 无关,求得 \(\Theta\) 后就可计算参数的后验概率 \(p(\Theta \mid X)\)

  • 贝叶斯估计:\(p(\Theta \mid X)=\frac{p(X \mid \Theta) \cdot p(\Theta)}{p(X)}=\frac{p(X \mid \Theta) \cdot p(\Theta)}{\int_{\Theta} p(X \mid \Theta) \cdot p(\Theta) d \Theta}\)
  • 贝叶斯预测:已知数据集 \(X\) 的分布,现在给一个新的样本 \(\hat{x}\),求其出现的概率 \(P(\hat{x}|X)\) 的值,注意 \(\hat{x}\)\(X\) 是独立同分布的

\[p(\hat{x} \mid X) = \int_{\Theta} p(\hat{x},\Theta \mid X) d \Theta = \int_{\Theta} p(\hat{x} \mid \Theta) \cdot p(\Theta \mid X) d \Theta\]

  • 第一个等号,参考边缘分布函数公式
  • 第二个等号,参考条件概率逆推即可:\(P( {\color{red}{\hat{x},\Theta}} \mid X) = P( {\color{red}{\hat{x}} \mid \Theta} \mid X)P( {\color{red}{\Theta}} \mid X)\)

总结

贝叶斯派角度,概率图模型,是求积分的问题,MCMC、Carlo 方法。

频率派角度,统计机器学习,是优化的问题,模型-损失函数-优化。

白板

Fig 1 c0-绪论1
Fig 1 c0-绪论1
Fig 2 c0-绪论2
Fig 2 c0-绪论2

参考