論文メモ The Annotated Transformer

July 1, 2019

論文は、当サイトで紹介したAttention Is All You Needで提案されたTransformerのアーキテクチャを、サンプルコードとオリジナルの論文の引用を交えて解説している。 実装にはPyTorchを使用している。

Attention(注意) Transformerの概要は当ページにあるAttention Is All You Needで解説にあるため、ここではその補足を記載する。 Attention自体は既存技術であり、すでに深層学習による自然言語処理のような参考書でも取り上げられている。 そこでは、「複数のベクトルがあったときに、どのベクトルを重要視するかも含めて学習させる仕組みのことを注意機構(attention mecanism),あるいは注意と呼びます」とある。 attentionには、いくつか種類があり、元の論文によれば、中でもよく使われているのがadditive attentionやdot-product attentionとのこと。既存手法の一部を除けば、系列モデリングにおいては、回帰結合型ネットワークとattentionを組合わせたアプローチが採用されることがほとんであった。 元の論文の新規性は、表題の通り、回帰結合型ネットワークや畳み込みネットワークを使わず、attentionだけを使い、既存手法を上回る翻訳の性能を出せたことにある。

備考 本稿の位置付けとしては、既存研究の理解のための補助資料であり、学問上の新規性を意図したものではない。 しかし、BERT: Pre-training of Deep Bidirectional Transformers for Lnaguages Understaingにおいて、Transformerの解説に本稿の元になった記事への引用があり、補助資料としての価値が充分にあると認められているようであったため、紹介することにした。

論文をこちらからダウンロードできます。