Optimization Functions

1) 拉格朗日算子的正负值是否无关?

2) SMO for SVM? 为什么要两维

3)Batch Gradient Descend 中 h()? 为什么乘以 x

4)Newton 法:是否是不停的求切线,二阶是怎么来的?【凸优化 OK, 非凸有问题?mini-batch 会累积噪声】 GD:梯度下降的方向

  • Newton:

    • 梯度切线下降的方向(梯度变化最快的方向)

    • 但要计算二阶导数 — Hessian size 很大,而且运算量巨大(是 O(n^2)吗?)

    • 计算步长:阻尼牛顿

  • Quasi-Newton:

    • 拟合 Hessian / Hessian 的逆 (O(n^2) -> O(2 * n))(用两个 vector dot product 代替 Hessian 的逆(H^-1))

    • BFGS: 拟合 Hessian (H)

    • L-BFGS:不存拟合的 Hessian (B)

5)Conjugate Gradient

  • 类似 coordinate 方法:先转换成几个共轭的方向,再在共轭的方向上寻找 coordinate 下降

6)1.2.3.4 中 一阶动量/二阶动量是什么

  • 一阶动量决定方向;lr/二阶动量 决定最终步长

7) SGD + Nesterov Gt 为什么用 m(t-1) V(t - 1) 算

8)鞍点:两个方向的 gradient 都为 0?还是一个方向是最低了?

9)AdaGrad 中:一阶平方和是二阶吗?

10) AMSGrad: 保证 Vt >= Vt-1, 这样就不会后期 lr 又因 Vt 变小而使 lr 变大而震荡

11)decouple Nadam:为什么 weight decay 会在 optimization function 中?

12)Gradient noise?paper 名字

13) Warm restart: 会更好吗?snapshot ensemble:比 model ensemble 节约很多训练时间(一轮下来的到好几个局部最优)

14)LSTM model 训练 lr (为什么 lstm)

15)learn to learn,学习模型结构

16)参数越多,局部极值点越多;评价 local minimum:如果这个 minimum 非常 sharp 就不好(有争议)。

17)GPU 并行:

  • Disk —> cpu —> 显存 —> GPU cores;GPU cores 运算的是 im2col 后的小 patch

18)model parallelism & data parallelism

Last updated