Optimization Functions
1) 拉格朗日算子的正负值是否无关?
2) SMO for SVM? 为什么要两维
3)Batch Gradient Descend 中 h()? 为什么乘以 x
4)Newton 法:是否是不停的求切线,二阶是怎么来的?【凸优化 OK, 非凸有问题?mini-batch 会累积噪声】 GD:梯度下降的方向
Newton:
梯度切线下降的方向(梯度变化最快的方向)
但要计算二阶导数 — Hessian size 很大,而且运算量巨大(是 O(n^2)吗?)
计算步长:阻尼牛顿
Quasi-Newton:
拟合 Hessian / Hessian 的逆 (O(n^2) -> O(2 * n))(用两个 vector dot product 代替 Hessian 的逆(H^-1))
BFGS: 拟合 Hessian (H)
L-BFGS:不存拟合的 Hessian (B)
5)Conjugate Gradient
类似 coordinate 方法:先转换成几个共轭的方向,再在共轭的方向上寻找 coordinate 下降
6)1.2.3.4 中 一阶动量/二阶动量是什么
一阶动量决定方向;lr/二阶动量 决定最终步长
7) SGD + Nesterov Gt 为什么用 m(t-1) V(t - 1) 算
8)鞍点:两个方向的 gradient 都为 0?还是一个方向是最低了?
9)AdaGrad 中:一阶平方和是二阶吗?
10) AMSGrad: 保证 Vt >= Vt-1, 这样就不会后期 lr 又因 Vt 变小而使 lr 变大而震荡
11)decouple Nadam:为什么 weight decay 会在 optimization function 中?
12)Gradient noise?paper 名字
13) Warm restart: 会更好吗?snapshot ensemble:比 model ensemble 节约很多训练时间(一轮下来的到好几个局部最优)
14)LSTM model 训练 lr (为什么 lstm)
15)learn to learn,学习模型结构
16)参数越多,局部极值点越多;评价 local minimum:如果这个 minimum 非常 sharp 就不好(有争议)。
17)GPU 并行:
Disk —> cpu —> 显存 —> GPU cores;GPU cores 运算的是 im2col 后的小 patch
18)model parallelism & data parallelism
Last updated