論文メモ BERT: Pre-training of Deep Bidirectional Transformers for Lnaguages Understaing
December 14, 2019概要
BERTはAttention Is All You NeedにあるTransformerをアーキテクチャに導入した分散表現のモデルであり、本稿は、事前学習済みのBERTにファインチューニングを適用しQAタスクや自然言語推論のベンチマークにおいて既存研究を上回る結果を示している。 なお、アーキテクチャに関する説明は少なく、子細に知りたい場合はAttention Is All You NeedやThe Annotated Transformerを参照するように案内されている。
事前学習
事前学習では、単語をトークンとし、単語の前後の文脈を反映した分散表現を双方向のモデルを学習する。
双方向性を与えるために、無作為に選んだトークンをマスクし、周辺のトークンからマスクされたトークンを当てるというタスクを解く。論文にある事前学習の様子を示した図を以下に示す。様々なタスクに応用できるように、文の組みを示すトークンを導入するこで、文のペアも単一の文も入力として扱えるようになっている。図は対になる文の入力の様子を示しており、[CLS]
はペアの始まりを、[SEP]
はペアの要素間の区切りを、それぞれ表している。
ファインチューニング
BERTの出力を入力とする一層の出力層を追加するだけで、既存研究を上回る予測性能をあげることができたと報告されている。