Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer(2020)
August 5, 2023Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformerは、 複数の異なる自然言語処理を、統一的にテキストからテキストを生成する問題とみなした大規模な実験によって、自然言語処理への転移学習の応用に見通しをつけた。 この統一的なアプローチは、Text-to-Text Transfer Transformer(T5)と名づけられた。 既存の技術への理解を深めることを目的としており、新たなアルゴリズムの提案はない。 一方、調査する技術の限界を調べるために、大きなデータが必要であったことから、新たなデータセットColossal Clean Crawled Corpus(C4)が作られた。 C4には、Common Crawlから抽出された英語のテキストがふくまれる。
T5は、モデルにタスクの種類を伝えるために、タスクごとに違うプレフィックスと入力文を連結し、連結文字列をモデルに入力する。 たとえば、翻訳のプレフィックスは"translate English to German", テキスト含意であれば、“mnli premise: I hate pigeons. hypothesis: My feelings towards pigeons are filled with animosity.“にある"mnli premise, hypothesis"がプレフィックスである。
3種類の事前学習のタスクを比較した。 比較したタスクは、BERTとおなじくマスクされたトークンを予測する、文書の前半部分から後半の部分を推定する、順序を入れ替えたトークン列を元の文書に戻すタスクであった。 最も高い性能であったのは、マスクされたトークンを予測する事前学習のモデルだった。 実験のファインチューニングでは、タスク別にモデルを訓練した。
実験で比較するモデルはいずれも、位置のエンベディングと層正規化を除いて、もとのTransformerと大きく変わらない。 Shaw et al., 2018のように単語同士の相対的な位置のエンベディングを自己注意機構で計算する点が、もとのTransformerと違う。 層正規化については、層正規化にはバイアス項を使わず、残差結合のパスの外に層正規化を置く点がオリジナルのTransformerと違う。 モデル同士を比べるときは、パラメタや層の数に注目し、スケールによる影響を観察した。
訓練データやパラメタ数を増やすだけでなく、アンサンブルでも性能を向上できた。 学習データを4倍に増やすよりも、パラメタ数や学習時間を倍にするほうが効果的だった。 また、アンサンブル学習のときは、事前学習とファインチューニングが両方違うモデルを組合せるほうが、事前学習が同じでファインチューニングのみ異なるモデルを組み合わせる場合よりも、性能が高かった。