Coda

論文メモ ALBERT: A LITE BERT FOR SELF-SUPERVISED LEARNING OF LANGUAGE REPRESENTATIONS

April 25, 2020

BERTのパラメタ数を削減し、学習時間の短縮と正則化による予測性能の向上を両立したモデルALBERTを提案し、GLUE, RACE, SQuADでSoTAを実現した。 BERT-largeと比べると、ALBERT-largeのパラメタ数は約5.3%の18Mであり、学習時間は1.7倍速い。 パラメタを削減するために、単語のOne-hotベクトルをあたえられる単語埋め込み行列の次元を減らし、隠れ層の順伝播ネットワークや注意機構のパラメタを層の間で共有した。 また、Next Sentence Prediction(NSP)による学習を、与えられた2文の前後関係を判定する学習Sentence Order Prediction(SOP)におきかえ、主タスクの予測性能を向上をはかった。

単語埋め込み行列の次元削減

BERTでは、単語の埋め込み行列は文脈に依存しない分散表現を示し、隠れ層は文脈依存の分散表現を示す。 両者の次元数は等しい。 自然言語処理において、入力文の語彙数\(V\)は大きく、実験では30000におよぶ。 そのため、One-hotベクトルの次元数が大きくなり、それにより埋め込み行列の次元数\(E\)が増え、結果として隠れ層の次元数\(H\)も大きくなる。 一方、Liuらの実験から、隠れ層のほうが単語の埋め込み行列よりも予測性能に寄与することがわかっている。 そこで、ALBERTでは、単語埋め込み行列の次元を減らし、\(H> > E\)とすることで、予測性能を維持しながらパラメタを削減をはかっている。

重み共有

隠れ層にある層間でパラメタを共有し、パラメタ数を削減している。 以下の図は、BERTとALBERTについて、層の出力の距離をL2ノルムやコサイン類似度で比較した結果を示す。 パラメタを共有することで、BERTよりも層の出力を安定できていることがみてとれる。 albert

Sentence order Prediction(SOP)

パラメタの削減のほかに、主タスクでの性能向上のための改良も加えられている。 BERTでは、事前学習において、next sentence prediction(NSP)をもちいる。 これは、2文があたえられ、元の文書において隣接しているか、それぞれ別の文書にあったものかを判定する学習である。 Yangらの研究から、NSPの主タスクへの効果は疑しいみなされている。 ALBERTでは、かわりに、与えられた2文の前後関係を判定する学習、Sentence Order Prediction(SOP)を採用している。