优化时该用SGD,还是用Adam?——绝对干货满满!


最近在实验中发现不同的优化算法以及batch_size真的对模型的训练结果有很大的影响,上网搜了很多关于各种优化算法(主要是SGD与Adam)的讲解,直到今天看到知乎上一位清华大神的总结与诠释,收获很大,特转载记录一下~

原文(知乎)链接:
Adam那么棒,为什么还对SGD念念不忘 (1) —— 一个框架看懂优化算法
Adam那么棒,为什么还对SGD念念不忘 (2)—— Adam的两宗罪
Adam那么棒,为什么还对SGD念念不忘 (3)—— 优化算法的选择与使用策略