Coda

論文メモ Semi-supervised Sequence Learning

March 14, 2020

系列データの教師あり学習において、ラベルのないデータを学習した言語モデルやオートエンコーダーの重みでLSTMを初期化することの有用性を実験的に示した。

本論文は、BERTにいたる系統につらなる。 系列データとして想定されているのはテキストであり、実験では4種類のデータセットがもちいられた。 オートエンコーダーで事前学習したLSTM(SA-LSTM)と発表当時における最高の性能をもつモデルで比較した結果を次に示す。

データ SA-LSTM Previous best result
IMDB 7.24% 7.42%
Rotten Tomatoes 16.7% 18.5%
20 Newsgroups 15.6% 17.1%
DBpedia 1.19% 1.74%

LSTMは長い文書の扱うときにハイパーパラメタに性能が影響されやすいが、オートエンコーダーの重みで初期化すると安定することがIMDBの実験で分かった。 IMDBの各テキストの平均の単語数は241である。


論文はこちらからダウンロードできます。