Coda

Regularizing and Optimizing LSTM Language Models

November 23, 2018

本稿は、LSTMを用いた言語モデルに対して正規化と最適化を適用し、実験を通して既存の先行研究とperplexityの観点で予測性能を評価した。本稿の手法の利点は、LSTMの実装に変更を加えずに適用できるために、NVIDIA cuDNNなどの高速でブラックボックスなライブラリで実装できることにある。

最適化

モメンタムに頼らない方が予測性能をあげられるという立場をとり、学習率が一定のNon-monotonically Triggered ASGD(NT-ASGD)を提案した。 NT-ASGDのベースにはAveraged SGD(ASGD)がある。 ASGDとSGDの違いは、SGDが最後に更新された重みの値を返すのに対し、ASGDでは一定回数反復した以降の各時点での重みの平均値を採用する点にある。 ASGDを採用するには、平均の対象にするべき繰り返しの期間を設定する必要があり、チューニングを要する。 NT-ASGDでは、モデルの性能を測るメトリクスの値を都度計測し、メトリクスの向上具合をもとに平均の算出対象の範囲を決めることで、自動でチューニングを図っている。

正則化

本稿における正則化は、Deep Learningと同様に、「訓練誤差ではなく、汎化誤差の削除を意図した、学習アルゴリズムに対するあらゆる改良」という意味で、複数のアプローチが採用されている。その中で予測性能の向上に最も貢献したのは、LSTMの隠れ層導入されたDropConnect(ドロップアウトを一般化したもの。ドロップアウトが活性化関数の出力のうち無作為に選ばれたものを0にするのに対して、DropConnectは無作為に選ばれた重みの一部を0にする。一つのスカラー重みと1つの隠れユニットの状態の席をドロップするユニット)であった。

感想

関連研究の節がなく評価の節で先行研究を紹介していた点が珍しいと感じた。 本研究は以前に本ページで紹介したUniversal Language Model Fine-tuning for Text Classificationのベースになっており、これに対する理解を深めるために本稿を確認した。 本稿の利点として、既存の高速なライブラリを利用できることを主張しているので、処理時間の評価があってもいいと感じた。

参考情報