# Optimization Functions

1\) 拉格朗日算子的正负值是否无关？

2\) SMO for SVM? 为什么要两维

3）Batch Gradient Descend 中 h()? 为什么乘以 x

4）Newton 法：是否是不停的求切线，二阶是怎么来的？【凸优化 OK， 非凸有问题？mini-batch 会累积噪声】    GD：梯度下降的方向 &#x20;

* Newton：&#x20;
  * 梯度切线下降的方向（梯度变化最快的方向）
  * 但要计算二阶导数 — Hessian size 很大，而且运算量巨大（是 O(n^2)吗？）&#x20;
  * 计算步长：阻尼牛顿
* Quasi-Newton:  &#x20;
  * 拟合 Hessian / Hessian 的逆 （O(n^2) -> O(2 \* n)）（用两个 vector dot product 代替 Hessian 的逆（H^-1））&#x20;
  * BFGS: 拟合 Hessian （H）                               &#x20;
  * L-BFGS：不存拟合的 Hessian （B）

5）Conjugate Gradient   &#x20;

* 类似 coordinate 方法：先转换成几个共轭的方向，再在共轭的方向上寻找 coordinate 下降

6）1.2.3.4 中 一阶动量/二阶动量是什么

* 一阶动量决定方向；lr/二阶动量 决定最终步长

7） SGD + Nesterov       Gt 为什么用 m(t-1) V(t - 1) 算

8）鞍点：两个方向的 gradient 都为 0？还是一个方向是最低了？

9）AdaGrad 中：一阶平方和是二阶吗？

10\) AMSGrad: 保证 Vt >= Vt-1, 这样就不会后期 lr 又因 Vt 变小而使 lr 变大而震荡

11）decouple Nadam：为什么 weight decay 会在 optimization function 中？

12）Gradient noise？paper 名字

13\)   Warm restart: 会更好吗？snapshot ensemble：比 model ensemble 节约很多训练时间（一轮下来的到好几个局部最优）

14）LSTM model 训练 lr （为什么 lstm）

15）learn to learn，学习模型结构

16）参数越多，局部极值点越多；评价 local minimum：如果这个 minimum 非常 sharp 就不好（有争议）。

17）GPU 并行：

* Disk —> cpu —> 显存 —> GPU cores；GPU cores 运算的是 im2col 后的小 patch

![](https://firebasestorage.googleapis.com/v0/b/gitbook-x-prod.appspot.com/o/spaces%2F-LGHUhl6VYqrZm4Re77O%2Fuploads%2FZQUoInI3OJjGwxCiei72%2Ffile.jpeg?alt=media)

\
18）model parallelism & data parallelism

![](https://firebasestorage.googleapis.com/v0/b/gitbook-x-prod.appspot.com/o/spaces%2F-LGHUhl6VYqrZm4Re77O%2Fuploads%2FAnjhQRIwZVEQErTVMPoJ%2Ffile.jpeg?alt=media)


---

# Agent Instructions: Querying This Documentation

If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://sisyphus.gitbook.io/project/deep-learning-basics/basics/optimization-functions.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
