# Optimization Functions

1\) 拉格朗日算子的正负值是否无关？

2\) SMO for SVM? 为什么要两维

3）Batch Gradient Descend 中 h()? 为什么乘以 x

4）Newton 法：是否是不停的求切线，二阶是怎么来的？【凸优化 OK， 非凸有问题？mini-batch 会累积噪声】    GD：梯度下降的方向 &#x20;

* Newton：&#x20;
  * 梯度切线下降的方向（梯度变化最快的方向）
  * 但要计算二阶导数 — Hessian size 很大，而且运算量巨大（是 O(n^2)吗？）&#x20;
  * 计算步长：阻尼牛顿
* Quasi-Newton:  &#x20;
  * 拟合 Hessian / Hessian 的逆 （O(n^2) -> O(2 \* n)）（用两个 vector dot product 代替 Hessian 的逆（H^-1））&#x20;
  * BFGS: 拟合 Hessian （H）                               &#x20;
  * L-BFGS：不存拟合的 Hessian （B）

5）Conjugate Gradient   &#x20;

* 类似 coordinate 方法：先转换成几个共轭的方向，再在共轭的方向上寻找 coordinate 下降

6）1.2.3.4 中 一阶动量/二阶动量是什么

* 一阶动量决定方向；lr/二阶动量 决定最终步长

7） SGD + Nesterov       Gt 为什么用 m(t-1) V(t - 1) 算

8）鞍点：两个方向的 gradient 都为 0？还是一个方向是最低了？

9）AdaGrad 中：一阶平方和是二阶吗？

10\) AMSGrad: 保证 Vt >= Vt-1, 这样就不会后期 lr 又因 Vt 变小而使 lr 变大而震荡

11）decouple Nadam：为什么 weight decay 会在 optimization function 中？

12）Gradient noise？paper 名字

13\)   Warm restart: 会更好吗？snapshot ensemble：比 model ensemble 节约很多训练时间（一轮下来的到好几个局部最优）

14）LSTM model 训练 lr （为什么 lstm）

15）learn to learn，学习模型结构

16）参数越多，局部极值点越多；评价 local minimum：如果这个 minimum 非常 sharp 就不好（有争议）。

17）GPU 并行：

* Disk —> cpu —> 显存 —> GPU cores；GPU cores 运算的是 im2col 后的小 patch

![](https://firebasestorage.googleapis.com/v0/b/gitbook-x-prod.appspot.com/o/spaces%2F-LGHUhl6VYqrZm4Re77O%2Fuploads%2FZQUoInI3OJjGwxCiei72%2Ffile.jpeg?alt=media)

\
18）model parallelism & data parallelism

![](https://firebasestorage.googleapis.com/v0/b/gitbook-x-prod.appspot.com/o/spaces%2F-LGHUhl6VYqrZm4Re77O%2Fuploads%2FAnjhQRIwZVEQErTVMPoJ%2Ffile.jpeg?alt=media)
