Optimization Functions

1) 拉格朗日算子的正负值是否无关？

2) SMO for SVM? 为什么要两维

3）Batch Gradient Descend 中 h()? 为什么乘以 x

4）Newton 法：是否是不停的求切线，二阶是怎么来的？【凸优化 OK，非凸有问题？mini-batch 会累积噪声】 GD：梯度下降的方向

Newton：
- 梯度切线下降的方向（梯度变化最快的方向）
- 但要计算二阶导数 — Hessian size 很大，而且运算量巨大（是 O(n^2)吗？）
- 计算步长：阻尼牛顿
Quasi-Newton:
- 拟合 Hessian / Hessian 的逆（O(n^2) -> O(2 * n)）（用两个 vector dot product 代替 Hessian 的逆（H^-1））
- BFGS: 拟合 Hessian （H）
- L-BFGS：不存拟合的 Hessian （B）

5）Conjugate Gradient

6）1.2.3.4 中一阶动量/二阶动量是什么

7） SGD + Nesterov Gt 为什么用 m(t-1) V(t - 1) 算

8）鞍点：两个方向的 gradient 都为 0？还是一个方向是最低了？

9）AdaGrad 中：一阶平方和是二阶吗？

10) AMSGrad: 保证 Vt >= Vt-1, 这样就不会后期 lr 又因 Vt 变小而使 lr 变大而震荡

11）decouple Nadam：为什么 weight decay 会在 optimization function 中？

12）Gradient noise？paper 名字

13) Warm restart: 会更好吗？snapshot ensemble：比 model ensemble 节约很多训练时间（一轮下来的到好几个局部最优）

14）LSTM model 训练 lr （为什么 lstm）

15）learn to learn，学习模型结构

16）参数越多，局部极值点越多；评价 local minimum：如果这个 minimum 非常 sharp 就不好（有争议）。

17）GPU 并行：

18）model parallelism & data parallelism

Last updated 7 years ago