DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter (2019)
November 4, 2023DistilBERTは、BERTの事前学習に知識の蒸留を適用したモデルである。 DistilBERTの事前学習の損失関数は、BERTの学習に使われるMasked language model, BERTとDistilBERTの隠れ状態のコサイン類似度、BERTとDistil BERTの交差エントロピーの線形結合である。 学習時は温度付きソフトマックスを\(T>1\)に設定し、推論時には\(T=1\)として通常のソフトマックスをもちいる。 DistilBERTのアーキテクチャは、セグメントエンベディング、下流タスクにCLSトークンのエンベディングを渡す層、半数の層をBERTから取り除いてできている。
所感
推論速度の実験はあるが、事前学習の速度や計算資源に対する評価がない。
DistilBERTの論文におけるtoken-type embeddingsは、BERTの論文におけるSegment embeddingである。 また、BERTの論文にはpoolerという単語はないが、これは下流タスクに[CLS]トークンのエンベディングをわたす層である。
BERTの目的関数Next setence predictionは効果が疑わているためか省略されている。