Coda

論文 メモ Learning Joint Multilingual Sentence Representations with Neural Machine Translation

April 29, 2020

概要

多言語の文をあつかう分散表現モデルを発表した論文である。 異なる言語の文であっても、意味が同じであれば、同様の分散表現に変換される。 モデルのアーキテクチャにはseq2seqを、入力と出力には対訳コーパスをつかう。 ミニバッチごとに、入力または出力の言語をいれかえ、言語に依存しない文の意味の分散表現への変換方法を学習する。 本論文の成果は多言語に対応する分散表現のモデルのライブラリLASERに応用されている。

アーキテクチャ

seq2seqを使う点は同じであるものの、ミニバッチごとの言語の入れ換え方や、一度に入力する言語の数の違いによって、複数のパターンがある。 パターンの違いを以下に図示する。 fig

入力と出力の数によって、大きく1:1, M:1, 1:N, M:Nの4パターンに分かれる。 1:1では、ミニバッチごとに入力と出力の言語のペアをいれかえる。 M:1では、複数の言語の文をencoderに入力し、平均などで、その各言語の出力から計算した値をdecoderに入力し、1種類の言語の文への変換を試みる。 1:Nは、1:1の亜種で、1つの言語の入力を同時に複数の言語に変換する。 N:Mは、以上3つを組み合わせたものである。

実験

encoderとdecoderにLSTMをもちいたseq2seqをもちい、学習に適したパターンやLSTMを評価した。 評価指標には、著者らが提案したものを使用した。 これは、同じ意味で言語の異なる文における分散表現間の距離の近さで、性能を評価する。 fig 実験では、UN Corpusをもちいて、英語、フランス語、スペイン語、ロシア語、アラビア語、中国語での性能を評価した。 隠れ層のサイズが512次元の双方向のLSTMと、その後の層にmax-pool層を採用した1:Nパターンが最も良い結果となり、上のアルゴリズムでのエラー値は1.20%であった。