一言でいうと
大規模バッチ学習のためのLayer-wise Adaptive Rate Scaling (LARS)を提案.
論文リンク
https://digitalassets.lib.berkeley.edu/techreports/ucb/text/EECS-2017-156.pdf
著者/所属機関
Yang You, Igor Gitman, Boris Ginsburg (UC Berkeley)
投稿日付(yyyy/MM/dd)
2017/09/16
概要

新規性・差分
異なるレイヤーで異なる学習率を適用する初の手法.
手法


結果





コメント