Coda

論文メモ Google's Neural Machine Transltation System: Bridging the Gap between Human and Machine Translation

May 30, 2020

概要

ニューラルネットワークをもちいた機械翻訳システムの論文である。 解決したい問題として、学習と推論時の処理時間の長さ、低頻出の単語を翻訳する難しさ、入力文の一部が翻訳されないことをあげ、注意機構でつながれたEncoderとDecoderからなるアーキテクチャを提案した。 学習時間を短縮するために、Decoderの最初の層とEncodeerの出力層から注意をつくる注意機構を採用し、Decoderを並列に学習できるようにしている。 また、量子化によって推論時間を短縮をしている。 低頻出の単語でも翻訳できるようにwordpieceでエンコードされた入力をうけとる。 入力文の一部が翻訳されない問題に対しては、短い出力文に罰則を課すビームサーチで出力文の候補を探索する仕組みが導入されている。

Read more

論文メモ Zero-Shot Learning with Semantic Output Codes

May 23, 2020

学習データにないラベルを推定できるようにモデルを学習する問題に対してzero-shot leanringという名をあたえ、ラベルを推定できる確率と条件を形式化した論文である。 形式化するモデルは、複数の二値分類器と1つの最近傍探索器からなる。 最近傍探索は、2値分類器の出力を要素とするベクトルをうけとり、最近傍のラベルに対応するベクトルを探す。 PACフレームワークにもとづく必要な学習データの件数を示し、そのデータで訓練されたモデルが学習データにないラベルを推定できる確率を示した。

Read more

論文メモ A STRUCTURED SELF-ATTENTIVE SENTENCE EMBEDDING

May 16, 2020

概要

自己注意機構をもちいて、可変長の文を埋め込み行列に変換するアーキテクチャを発表した論文である。 埋め込み行列の各行は、それぞれ文中の異なる箇所の意味を反映する。 アーキテクチャは2つの構成からなり、入力から出力にむかい双方向LSTMを、次に自己注意機構をもつ。 自己注意機構を導入した背景は、回帰結合型のネットワークでは、全ての時刻わたって入力の意味を保持することは難しく、また不要であるという著者らの仮説である。 3つの実験により、文の分散表現を獲得する先行研究と比較し、自己注意機構の効果が確認された。 注意機構は複数のベクトルのどれを重視するかを学習できるため、埋め込まれた文の箇所を可視化できることも示した。

Read more

論文メモ Poincaré Embeddings for Learning Hierarchical Representations

May 9, 2020

概要 単語のように上位下位関係のある記号を、ポアンカレ球体模型という双曲空間に埋め込む手法を発表した論文である。 ユークリッド空間よりも、記号間の類似度や上位下位関係が保たれていることを実験的に示した。 記号を木のノードとして配置し関係を表現するとき、ノード数は深さ\(l\)対して指数関数的に増加する。 双曲幾何学では、円板の面積や周は半径\(r\)に対して指数関数的に増大するため、木を2次元でモデル化できる。 たとえば、深さ\(l\)以下のノードを半径\(r \varpropto l \)の空間に配置することができる。 一方、2次元のユークリッド空間の場合、半径\(r\)に対する円周は線形、円の面積は2次関数的であるため、モデル化が難しい。 実験では、次元数が少ないほど、ポアンカレ球体模型とユークリッド空間の間で、上下関係や類似度の表現力に差があった。 損失関数 埋め込みたい上下関係\(\mathcal{D}=\{(u, v)\}\)を記号の数を\(n\)として入力すると、アルゴリズムは、埋め込みベクトルの集合\({\rm \Theta}=\{\boldsymbol{\theta}_i\}^n_{i=1}\)を出力する。 ただし、\(\boldsymbol{\theta}\in \mathcal{B}^d\), \(\mathcal{B}^d=\{\boldsymbol{x}\in \mathbb{R}^d\mid ||\boldsymbol{x}||<1\}\)とする。 学習では、次の損失関数\(\mathcal{L}(\Theta)\)をもちいる。 $$ \mathcal{L}(\Theta)=\sum_{(u, v)\in \mathcal{D}}\log\frac{e^{-d(\boldsymbol{u}, \boldsymbol{v})}}{\sum_{\boldsymbol{v}'\in \mathcal{N}(u)}e^{-d(\boldsymbol{u}, \boldsymbol{v}')}} $$ \(\mathcal{N}(u)=\{v’\mid (u, v’)\notin \mathcal{D}\} \cup \{v\}\)は\(v\)を含んだ\(u\)に対する負例である。 実験では、正例に対して10の負例をサンプリングしていた。 \(d\)は、\(\boldsymbol{u}, \boldsymbol{v}\in \mathcal{B}^d\)の距離であり、次の式であたえらえる。 $$ d(\boldsymbol{u}, \boldsymbol{v}) = \mathrm{arccosh}\left(1+2\frac{||\boldsymbol{u}-\boldsymbol{v}||^2}{(1-||\boldsymbol{u}||^2)(1-||\boldsymbol{v}||^2)}\right) $$ 最適化 RSGDやRSVRGで損失関数の値を最小化する埋め込みベクトルを探す。 ここでは、RSGDについて説明する。 RSGDでは、次のパラメタの更新式をとる。 $$ \boldsymbol{\theta}_{t+1} = \mathfrak{R}_{\theta_t}(-\eta_t\nabla_R\mathcal{L}(\boldsymbol{\theta}_t)) $$ \(\mathfrak{R}_{\theta_t}\)はレトラクションで、ここでは\(\mathfrak{R}_\theta(\boldsymbol{v})=\boldsymbol{\theta}+\boldsymbol{v}\)をもちいる。 \(\eta_t\)は時刻\(t\)の学習率をさす。 \(\nabla_R\)はリーマン多様体上の勾配であり、ユークリッド空間上の勾配\(\nabla_E\)とは $$ \nabla_R = \frac{(1-||\boldsymbol{\theta_t}||^2)^2}{4}\nabla_E $$ の関係がある。 以上より、更新式は $$ \mathrm{proj}(\boldsymbol{\theta})= \begin{cases} \boldsymbol{\theta}/||\boldsymbol{\theta}|| - \epsilon &\mathrm{if}\ ||\boldsymbol{\theta}||\ge 1 \\
Read more

論文 メモ Learning Joint Multilingual Sentence Representations with Neural Machine Translation

April 29, 2020

概要

多言語の文をあつかう分散表現モデルを発表した論文である。 異なる言語の文であっても、意味が同じであれば、同様の分散表現に変換される。 モデルのアーキテクチャにはseq2seqを、入力と出力には対訳コーパスをつかう。 ミニバッチごとに、入力または出力の言語をいれかえ、言語に依存しない文の意味の分散表現への変換方法を学習する。 本論文の成果は多言語に対応する分散表現のモデルのライブラリLASERに応用されている。

Read more

論文メモ ALBERT: A LITE BERT FOR SELF-SUPERVISED LEARNING OF LANGUAGE REPRESENTATIONS

April 25, 2020

BERTのパラメタ数を削減し、学習時間の短縮と正則化による予測性能の向上を両立したモデルALBERTを提案し、GLUE, RACE, SQuADでSoTAを実現した。 BERT-largeと比べると、ALBERT-largeのパラメタ数は約5.3%の18Mであり、学習時間は1.7倍速い。 パラメタを削減するために、単語のOne-hotベクトルをあたえられる単語埋め込み行列の次元を減らし、隠れ層の順伝播ネットワークや注意機構のパラメタを層の間で共有した。 また、Next Sentence Prediction(NSP)による学習を、与えられた2文の前後関係を判定する学習Sentence Order Prediction(SOP)におきかえ、主タスクの予測性能を向上をはかった。

Read more

論文メモ Random Walks in recommender Systems: Exact Computation and Simulations

April 18, 2020

概要

F. FoussらM. Goriらのランダムウォークによる推薦システムの先行研究を、質や計算量について比較した論文である。 比較対象には、著者らの用意したも含まれる。 実験には、MovieLensのデータセットが使われた。 F. Foussらの実験で使われた評価指標や上位kの推薦結果のヒット数で評価したところ、著者らの用意した単純な手法\(P^s\)やその拡張\(P_\alpha^s\)が質と計算量の両方で最も優れた結果を残した。

Read more

論文メモ Domain Adversarial Training of Neural Networks

April 11, 2020

概要

ニューラルネットワークをもちいたドメイン適用の論文である。 ソースドメインのラベルつきデータと目標ドメインのラベルのないデータでモデルを訓練し、目標ドメインに対する分類性能を引きあげる。 目的関数は、ソースドメインの分類器の目的関数とデータのドメインを判定する識別器の目的関数からなる。 後者は、前者の正則化項としてはたらく。 これにより、ドメイン間に共通する特徴からソースドメインのデータのラベルを高い性能で予測できるようになる。 目標関数から、ドメイン間のデータの分布が近いほど、目標ドメインのデータでも高い分類性能を発揮する。 先行研究との違いは、できるだけ共通するする特徴で分類するという着想を、通常の分類と同じく、確率的勾配降下法で実現したところにある。

Read more

論文メモ Character-Aware Neural Language Models

April 4, 2020

概要

文字単位の入力から次に出現する単語を予測するニューラル言語モデルの論文である。 アーキテクチャは入力から近い順にCNN, highway network, LSTMからなる。 実験データにPenn Treebankを、評価指標にPerplexityを採用してモデルを評価したところ、 論文が発表された2016年時点でのSOTAの60%程度のパラメタしかないモデルでありながら、これに匹敵する性能を発揮した。

Read more