WORD TRANSLATION WITHOUT PARALLEL DATA(2018)
May 21, 2023対訳コーパスを使わずに、ある言語のエンベディングから別の言語のエンベディングへの写像を学習する。 はじめに、敵対的生成ネットワークで写像を学習する。 次に、出現頻度の高い単語について、写像されたエンベディングと目的言語のエンベディングにプロクラステス分析を適用し、より正確な写像関数を求める。
生成ネットワークは原言語から目的言語へのエンベディングの写像を学習し、識別ネットワークはエンベディングの単語が原言語か目的言語かを判別する。 原言語のエンベディングの集合を\(\mathcal{X}=\{x_1, \dots x_n\}\), 目的言語のエンベディングの集合を\(\mathcal{Y}=\{y_1,\dots y_m\}\)とする。 \(n\)と\(m\)は単語の数である。写像を\(W\)とすると、\(W\mathcal{X}\)と\(\mathcal{Y}\)からランダムにサンプルを選び、ネットワークを学習する。
識別ネットワークのパラメタを\(\theta_D\)とすると、損失関数は $$ \mathcal{L}_D(W|\theta_D)=-\frac{1}{n}\sum^n_{i=1}\log P_{\theta_D}(\text{source}=0|Wx_i)-\frac{1}{m}\sum^m_{i=1}\log P_{\theta_D}(\text{source}=1|y_i) $$ である。 損失関数は $$ \mathcal{L}_D(\theta_D|W)=-\frac{1}{n}\sum^n_{i=1}\log P_{\theta_D}(\text{source}=1|Wx_i)-\frac{1}{m}\sum^m_{i=1}\log P_{\theta_D}(\text{source}=0|y_i) $$ である。
敵対的生成ネットワークは、単語の出現頻度を無視して、エンベディングを写像する。 出現頻度の低い単語は、原言語と目的言語それぞれで違う文脈で出現しがちである。 出現頻度の低い単語を正確に写像しがたい一方で、頻出単語は敵対的生成ネットワークで正確に写像できる。 そこで、頻出単語とその近傍の単語だけからなる辞書を生成することで、辞書の正確性を確保する。
K-NNとコサイン類似度で単語の近傍を定義できる。 しかし、Radovanović et el.によれば、特徴の次元が高いと、密に特徴が集まる空間が生じ、正確なペアのマッチングが難しくなる。 そこで、密に集まる特徴間の類似にペナルティを与える類似度の指標 Cross-Domain Similarity Local Scaling(CSLS)を定義する。 \(\mathcal{N}_T(Wx_s)\)を\(Wx_s\)の近傍にある目的言語の単語の集合、\(N_S(y_t)\)を単語\(t\)の近傍にある写像された原言語の単語集合とする。 $$ \begin{align*} r_T(Wx_s)&=\frac{1}{K}\sum_{y_t\in \mathcal{N}_T(Wx_s)}\text{cos}(Wx_s, y_t)\\ r_S(y_t)&=\frac{1}{K}\sum_{Wx_s\in \mathcal{N}_S(y_t)}\text{cos}(Wx_s, y_t) \end{align*} $$ とおくと、 $$ \text{CSLS}(Wx_s, y_t)=2\text{cos}(Wx_s, y_t)-r_T(Wx_s)-r_S(y_t) $$ である。
CSLSと写像関数で原言語に対応する目的言語のエンベディングを特定する。 Xing et alは\(W\)に直交性の制約を与えることで精度を向上できることを示した。 そこで、出現頻度の高い単語に対して、プロクラステス分析を適用し、以下の式で表せる\(W^{*}\)を求める。 $$ W^{*}=\underset{W\in O_d(\mathbb{R})}{\operatorname{argmin}}||WX-Y ||_F = UV^T,\ \text{with}\ U{\textstyle \sum} V^T = SVD(YX^T) $$
論文のリンク