Coda

論文メモ ROUGE: A Package for Automatic Evaluation of Summaries

June 27, 2020

概要

生成された要約を機械的に評価するための指標, Recall-Oriented Understudy for Gisting Evaluation(ROUGE)を提案した論文である。 人が作成した複数の要約文書との再現率で要約文書を評価する。 ROUGEは、ROUGE-N, ROUGE-L, ROUGE-W, ROUGE-S, ROUGE-SUの5つの指標の総称である。 同じ要約へのROUGEスコアと人の評価の相関によって、ROUGEの指標としての有用性を評価した。 その結果、ROUGE-2, ROUGE-L, ROUGE-W, ROUGE-Sは、文書の要約の評価に向き、ROUGE-1, ROUGE-L, ROUGE-W, ROUGE-SU4, ROUGE-SU9はヘッドラインほどの短い要約文の評価に向いていることがわかった。

Read more

論文メモ Do Developers Discover New Tools On The Toilet?

June 20, 2020

Testing on the Toiletの効果をCausalImpactで示した。

Read more

論文メモ A Neural Attention Model for Sentence Summarization

June 20, 2020

注意機構による深層学習で文を要約する手法である。 もとの文にない単語を含む要約文を生成できるが、生成前に文の長さを決めておかなければならない。

Read more

論文メモ BLEU: a Method for Automatic Evaluation of Machine Translation

June 13, 2020

概要

自動翻訳を定量的に評価するための指標BLEUを提案した論文である。 指標は、専門家の翻訳に翻訳に高い評価をあたえるよう設計されている。 BLEUは、ひとつの候補訳に対する1つ以上の参照訳をあたえ、0から1の値をとるスコアを出力する。 スコアは高いほどよい。 BLEUは、参照訳にある単語を過剰に含むことや文の短さにペナルティをあたえ、適合率で候補訳を評価する。

Read more

論文メモ Sequence to Sequence Learning with Nueral Networks

June 6, 2020

概要

Sequence to Sequenceの論文。 入出力が系列データを学習する場合、入力と出力の長さが等しかったり対応関係にある箇所が系列の方向に単調でなければならなかったりする。 これらの制約に対処するために、Sequence to Sequenceでは、入力全体を固定長のベクトルに一度変換し、そのベクトルをもとに出力を予測する。 2種類のLSTMをもち、入力を与えるLSTMの最終層の隠れ状態で、固定長ベクトルをつくる。 固定長のベクトルは、単調の制約を緩めるはたらきをする。 このベクトルは、もう一方のLSTMにあたえられ、その主力が最終的な出力になる。 実験では、入力系列を反転してあたえると、入力と出力の対応関係にある箇所の距離が近づき、予測性能が上がることが確認された。

Read more

論文メモ Google's Neural Machine Transltation System: Bridging the Gap between Human and Machine Translation

May 30, 2020

概要

ニューラルネットワークをもちいた機械翻訳システムの論文である。 解決したい問題として、学習と推論時の処理時間の長さ、低頻出の単語を翻訳する難しさ、入力文の一部が翻訳されないことをあげ、注意機構でつながれたEncoderとDecoderからなるアーキテクチャを提案した。 学習時間を短縮するために、Decoderの最初の層とEncodeerの出力層から注意をつくる注意機構を採用し、Decoderを並列に学習できるようにしている。 また、量子化によって推論時間を短縮をしている。 低頻出の単語でも翻訳できるようにwordpieceでエンコードされた入力をうけとる。 入力文の一部が翻訳されない問題に対しては、短い出力文に罰則を課すビームサーチで出力文の候補を探索する仕組みが導入されている。

Read more

論文メモ Zero-Shot Learning with Semantic Output Codes

May 23, 2020

学習データにないラベルを推定する問題に対してzero-shot leanringと名づけ、ラベルを推定できる確率と条件を形式化した論文である。 形式化するモデルは、複数の二値分類器と1つの最近傍探索器からなる。 最近傍探索は、2値分類器の出力を要素とするベクトルをうけとり、最近傍のラベルに対応するベクトルを探す。 PACフレームワークにもとづく必要な学習データの件数を示し、そのデータで訓練されたモデルが学習データにないラベルを推定できる確率を示した。

Read more

論文メモ A STRUCTURED SELF-ATTENTIVE SENTENCE EMBEDDING

May 16, 2020

概要

自己注意機構をもちいて、可変長の文を埋め込み行列に変換するアーキテクチャを発表した論文である。 埋め込み行列の各行は、それぞれ文中の異なる箇所の意味を反映する。 アーキテクチャは2つの構成からなり、入力から出力にむかい双方向LSTMを、次に自己注意機構をもつ。 自己注意機構を導入した背景は、回帰結合型のネットワークでは、全ての時刻わたって入力の意味を保持することは難しく、また不要であるという著者らの仮説である。 3つの実験により、文の分散表現を獲得する先行研究と比較し、自己注意機構の効果が確認された。 注意機構は複数のベクトルのどれを重視するかを学習できるため、埋め込まれた文の箇所を可視化できることも示した。

Read more

論文メモ Poincaré Embeddings for Learning Hierarchical Representations

May 9, 2020

概要 単語のように上位下位関係のある記号を、ポアンカレ球体模型という双曲空間に埋め込む手法を発表した論文である。 ユークリッド空間よりも、記号間の類似度や上位下位関係が保たれていることを実験的に示した。 記号を木のノードとして配置し関係を表現するとき、ノード数は深さ\(l\)対して指数関数的に増加する。 双曲幾何学では、円板の面積や周は半径\(r\)に対して指数関数的に増大するため、木を2次元でモデル化できる。 たとえば、深さ\(l\)以下のノードを半径\(r \varpropto l \)の空間に配置することができる。 一方、2次元のユークリッド空間の場合、半径\(r\)に対する円周は線形、円の面積は2次関数的であるため、モデル化が難しい。 実験では、次元数が少ないほど、ポアンカレ球体模型とユークリッド空間の間で、上下関係や類似度の表現力に差があった。 損失関数 埋め込みたい上下関係\(\mathcal{D}=\{(u, v)\}\)を記号の数を\(n\)として入力すると、アルゴリズムは、埋め込みベクトルの集合\({\rm \Theta}=\{\boldsymbol{\theta}_i\}^n_{i=1}\)を出力する。 ただし、\(\boldsymbol{\theta}\in \mathcal{B}^d\), \(\mathcal{B}^d=\{\boldsymbol{x}\in \mathbb{R}^d\mid ||\boldsymbol{x}||<1\}\)とする。 学習では、次の損失関数\(\mathcal{L}(\Theta)\)をもちいる。 $$ \mathcal{L}(\Theta)=\sum_{(u, v)\in \mathcal{D}}\log\frac{e^{-d(\boldsymbol{u}, \boldsymbol{v})}}{\sum_{\boldsymbol{v}’\in \mathcal{N}(u)}e^{-d(\boldsymbol{u}, \boldsymbol{v}‘)}} $$ \(\mathcal{N}(u)=\{v’\mid (u, v’)\notin \mathcal{D}\} \cup \{v\}\)は\(v\)を含んだ\(u\)に対する負例である。 実験では、正例に対して10の負例をサンプリングしていた。 \(d\)は、\(\boldsymbol{u}, \boldsymbol{v}\in \mathcal{B}^d\)の距離であり、次の式であたえらえる。 $$ d(\boldsymbol{u}, \boldsymbol{v}) = \mathrm{arccosh}\left(1+2\frac{||\boldsymbol{u}-\boldsymbol{v}||^2}{(1-||\boldsymbol{u}||^2)(1-||\boldsymbol{v}||^2)}\right) $$ 最適化 RSGDやRSVRGで損失関数の値を最小化する埋め込みベクトルを探す。 ここでは、RSGDについて説明する。 RSGDでは、次のパラメタの更新式をとる。 $$ \boldsymbol{\theta}_{t+1} = \mathfrak{R}_{\theta_t}(-\eta_t\nabla_R\mathcal{L}(\boldsymbol{\theta}_t)) $$ \(\mathfrak{R}_{\theta_t}\)はレトラクションで、ここでは\(\mathfrak{R}_\theta(\boldsymbol{v})=\boldsymbol{\theta}+\boldsymbol{v}\)をもちいる。 \(\eta_t\)は時刻\(t\)の学習率をさす。 \(\nabla_R\)はリーマン多様体上の勾配であり、ユークリッド空間上の勾配\(\nabla_E\)とは $$ \nabla_R = \frac{(1-||\boldsymbol{\theta_t}||^2)^2}{4}\nabla_E $$ の関係がある。 以上より、更新式は $$ \mathrm{proj}(\boldsymbol{\theta})= \begin{cases} \boldsymbol{\theta}/||\boldsymbol{\theta}|| - \epsilon &\mathrm{if}\ ||\boldsymbol{\theta}||\ge 1 \
Read more

論文 メモ Learning Joint Multilingual Sentence Representations with Neural Machine Translation

April 29, 2020

概要

多言語の文をあつかう分散表現モデルを発表した論文である。 異なる言語の文であっても、意味が同じであれば、同様の分散表現に変換される。 モデルのアーキテクチャにはseq2seqを、入力と出力には対訳コーパスをつかう。 ミニバッチごとに、入力または出力の言語をいれかえ、言語に依存しない文の意味の分散表現への変換方法を学習する。 本論文の成果は多言語に対応する分散表現のモデルのライブラリLASERに応用されている。

Read more