adam

马腾宇团队新出大模型预训练优化器，比Adam快2倍，成本减半

鉴于语言模型预训练成本巨大，因而研究者一直在寻找减少训练时间和成本的新方向。Adam 及其变体多年来一直被奉为最先进的优化器，但其会产生过多的开销。本文提出了一种简单的可扩展的二阶…

Z
2023年7月17日 • 人工智能
000