ML系统认识

emmm 先写个提纲，慢慢腾上去

1. 数据与模型

由观测数据学习出的模型 其实是一个随机变量

2. 损失函数

为什么平方损失用于回归问题，而不用于分类问题？
为什么分类问题用交叉熵损失？

3. 独立同分布

独立同分布是ML统计学基础？

4. 极大似然估计与极大后验估计

从极大似然估计推出最小二乘回归；
从极大后验估计推出岭回归；
极大后验估计与正则化

5. ML中的凸、非凸问题

6. 系统理解

最小化损失虽然是在做优化，但DL中更重要的也更难的是泛化；
（1） “请记住，在机器学习中，我们试图解决的问题总是被误导了。我们只是在优化 (拟合所拥有的数据)，但实际目标是泛化而泛化在根本上定义不清” via:François Chollet；
（2）关于深度学习的一个常见误解是，梯度下降意味着达到“全局最小化”损失的同时避免“局部最小值”。实际上，真正接近全局最小化损失的深度神经网络毫无用处(极端过拟合)” via:François Chollet；