随机梯度下降的新对数步长

图片来源:M. Soheil Shamaee、S. Fathi Hafshejani、Z. Saeidian

步长通常称为学习率,在优化随机梯度下降(SGD)算法的效率方面起着关键作用。 近年来,出现了多种步长策略来增强 SGD 性能。 然而,与这些步长相关的一个重大挑战与其概率分布有关,表示为 ηt/Σ时间t=1ηt。

观察这种分布是为了避免为最终迭代分配极小的值。 例如,广泛使用的余弦步长虽然在实践中有效,但通过为最后迭代分配非常低的概率分布值来遇到这个问题。

为了应对这一挑战,由 M. Soheil Shamaee 领导的研究小组发表了他们的研究成果 研究计算机科学前沿

该团队为 SGD 方法引入了新的对数步长。 事实证明,这种新的步长在最终迭代期间特别有效,与传统的余弦步长相比,它的选择概率明显更高。

因此,新的步长方法在这些关键的结论迭代中超越了余弦步长方法的性能,这得益于它们被选为选定解决方案的可能性增加。 获得的数值结果证明了新提出的步长的效率,特别是在 FashionMinst、CIFAR10 和 CIFAR100 数据集上。

此外,新的对数步长在测试精度方面表现出显着的改进,与卷积神经网络 (>) 模型一起使用时,CIFAR100 数据集的精度提高了 0.9%。

更多信息:
随机梯度下降的新对数步长, 计算机科学前沿 (2024)。 DOI:10.1007/s11704-023-3245-zJournal.hep.com.cn/fcs/EN/10.1 … 07/s11704-023-3245-z

由高等教育出版社提供

引文:随机梯度下降的新对数步长(2024 年,4 月 22 日)于 2024 年 4 月 22 日检索自

本文件受版权保护。 除出于私人学习或研究目的的公平交易外,未经书面许可不得复制任何部分。 内容仅供参考。

1713822158
#随机梯度下降的新对数步长
2024-04-22 21:34:02

Leave a Reply

Your email address will not be published. Required fields are marked *

近期新闻​

编辑精选​