Coda

論文メモ SentencePiece: A simple and language independent subword tokenizer and detokenizer for Neural Text Processing

February 29, 2020

SentencePieceは、深層学習向けのトークナイザ・脱トークナイザである。 特定の言語を意識した処理がないため、あらゆるテキストに利用できる。 本論文では、C++やPythonによる実装と翻訳への適用実験について書かれている。 アルゴリズムの解説は、Sennrich et al.Kudo.にゆずられている。 これらの論文について2019年7月13日の記事と2019年7月17日の記事で解説している。

Read more

論文メモ Latent Dirichlet Allocation

February 23, 2020

概要

トピックモデルの潜在的ディリクレ配分法(LDA)の原論文である。 LDAは、テキストコーパスのような離散データの確率的生成モデルである。 意味のあるデータのまとまりに対する端的な説明を与える情報を見つけることを目的としている。 3つの階層からなる階層ベイズモデルである。 、データの要素は、各トピックを表すモデルの混合モデルから生成される。 トピックもまた混合モデルから確率的に生成される。 推論にはベイズ変分法を、パラメタの推定にはEMアルゴリズムをもちいらる。

Read more

論文メモ Unsupervised Pretraining for Sequence to Sequence Learning

February 16, 2020

概要

事前学習とファインチューニングによりseq2seqの汎化性能を改善する手法を提案した論文である。 encoderの重みを学習済み言語モデルの重みで初期化する。 decoderについても、encoderと別の言語モデルを用意し、その重みで初期化する。 ただし、工夫のないファインチューニングをすると破滅的忘却が生じてしまう。 そこで、ファインチューニングでは言語モデルとseq2seqの目的関数の両方を学習につかうことで、過学習をさけ、汎化性能を確保する。

Read more

論文メモ Playing Atari with Deep Reinforcement Learning

February 9, 2020

概要

深層強化学習をAtari2600の7つのゲームに応用し、うち6つについて先行手法の性能を超えたDeep Q-Networks(DQN)を提案した論文である。 ピクセルデータを直接入力として与え、深層学習で方策を学習する手法としては初めて提案された。

Read more

論文メモ context2vec: Learning Generic Context Embedding with Bidirectional LSTM

February 2, 2020

概要

文書の文脈の分散表現を獲得するニューラルネットワークのアーキテクチャ*context2vec*を提案、評価した論文である。 アーキテクチャの基本構造はCBOWと同様で、周辺の単語から中心の単語を当てられるようにコーパスをもとにモデルを訓練する。 CBOWとの違いは、文脈の算出方法にある。 CBOWは、ウィンドウ内のベクトルの平均値で文脈の分散表現を求める。 一方、*context2vec*では、双方向LSTMの出力をもとに算出する。

Read more

論文メモ NEURAL MACHINE TRANSLATION BY JOINTLY LEARNING TO ALIGN AND TRANSLATE

February 1, 2020

概要

Decoderに注意機構を採用したencoder-decoderモデルを提案した論文である。 ICLR2015で発表された。 論文の発表当時、encoder-decoderモデルによる翻訳の多くは、encoderが入力文を固定長ベクトルに変換し、固定長ベクトルから翻訳された文を出力していた。 著者らは、固定長ベクトルへの変換が長い文の翻訳性能を下げていると考え、固定長ベクトルを注意機構におきかえたencoder-decoderモデルを提案する。 モデルは、翻訳に加え、生成する単語と入力文の箇所の関係を学習する。 推定時には、まず、次に生成する単語に関係する入力文の箇所を推定する。 次に、推定された箇所と生成済の単語列をもとに、単語を生成する。 特に長い文書の翻訳において、固定長ベクトルをつかうモデルよりも、提案手法が優れていることを実験的に示した。

Read more

論文メモ "Why Should I Trust You?" Explaining the Predictions of Any Classifier

January 26, 2020

概要

モデルの予測に説明をあたえる手法、Local Interpretable Model-agnostic Explanations (LIME)を提案する。 モデルが回帰や分類器であれば、アルゴリズムによらずLIMEを適用できる。 説明を与えたい事例近くにある事例を解釈可能なモデルに学習させ、解釈可能なモデルで予測を説明する。 また、個別の予測ではなく、モデル自体をよく説明する事例を集める手法Submodullar Pick (SP)-LIMEを提案する。

Read more

論文メモ Active Learning for Ranking through Expected Loss Optimization

January 19, 2020

概要

Yahoo! Labsで開発されたランキングのための能動学習の論文である。 提案手法は、Yahoo!検索エンジンでの採用実績がある。 手法は、Expected Loss Optimization(ELO)とよばれ、ベイズ決定則によって識別したときの損失の期待値が最大になるデータを選ぶ。 ELOに用いる損失関数にDCGを採用したExpected DCG Loss Optimization(ELO-DCG)を提案し、実験で評価した。

Read more

AtCoderに提出したコードをテストするためのDockerイメージ

January 14, 2020

AtCoderに提出したコードをテストするためのDockerイメージを実装した。 イメージのDockerfileはこちらにある。 AtCoderで提出したコードをgithubで管理していて、これをテストするために作った。
Read more

論文メモ Unsupervised Models for Named Entity Classification

January 13, 2020

概要

1999年に発表された教師なしの固有表現抽出の手法である。 発表時期が古いことに注意してほしい。 2つの手法が提案されている。 ひとつは、DL-CoTrainと呼ばれるルールベースの手法であり、教師なしデータに既存のルールを適用、適用結果から導出したルールを既存のルールに追加、をくりかえしてルールを増やす。 もう一方は、AdaBoostを応用したCoBoostとよばれる手法である。 ルールベースの手法のほうがCoBoostよりもよい実験結果であったので、前者のみを説明する。

Read more