Adam与BatchNorm

Adam

提出了一种高效且自适应的随机优化算法，通过结合一阶矩（动量）和二阶矩（自适应学习率）的估计，为每个模型参数独立调整学习率。

大幅简化了深度学习模型的训练过程，减少了手动调整学习率的需要，并保证了在稀疏梯度（尤其是在 NLP 中）下的稳定收敛。

成为深度学习，特别是自然语言处理（NLP）和 Transformer 架构的默认优化器之一。

info

《Adam: A Method for Stochastic Optimization》截止2025年，谷歌学术总引用次数排名第6。

提出了一种规范化网络层输入的方法，解决了训练深度网络时“内部协变量偏移”（Internal Covariate Shift）的问题，即中间层输入的分布在训练过程中不断变化的现象。

使得研究人员能够使用更高的学习率和更深的（更复杂的）网络架构进行训练，同时极大地加速了模型的收敛速度。

有效充当正则化器，减少了对 Dropout 等其他正则化技术的依赖。

info

《Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift》截止2025年，谷歌学术总引用次数排名第8。