Coda

論文メモ Deep contextualized word representations

March 24, 2020

文脈をふまえた単語の分散表現を生成する手法を提案し、教師あり学習に応用することで評価した論文である。 文字単位の学習済み双方向LSTM言語モデルへの入力と各層の出力から分散表現をつくる。 言語モデルの入力やどの層をどれだけ重視するかは、教師あり学習のときに更新するパラメタのひとつになる。 実験では、構文にかかわるタスクであれば入力層に近い層が、意味にかかわるものであれば出力層に近い層が、重視された。 モデルは、Embeddings from Language Modelsにちなみ、ELMoと名付けられた。

Read more

論文メモ The Seven Sins: Security Smells in Infrastructure as Code Scripts

March 20, 2020

概要

OSSの調査にもとづき、Infrastrucure as Code(IaC)スクリプトに潜む主要なセキュリティ上の不吉な匂い(Security Smells)を7つ列挙し、これらを検出するツールを実装した論文である。 論文のねらいは、開発者がIaCスクリプトに不吉な匂いを混ぜないようにすることにある。 著者らは、本論文で、ICSE2019のDistinguished Paper Awardを受賞した。

Read more

論文メモ Semi-supervised Sequence Learning

March 14, 2020

系列データの教師あり学習において、ラベルのないデータを学習した言語モデルやオートエンコーダーの重みでLSTMを初期化することの有用性を実験的に示した。

Read more

論文メモ In Search of an Understandable Consensus Algorithm

March 9, 2020

Raftとよばれるコンセンサスアルゴリズムを提案した論文である。 Raftは、Multi Paxosと同様の実行結果をもたらす。 実行するコマンドのログをサーバ間で交換することで、状態を同期し、サーバの一部が落ちてもシステムを継続することができる。

Read more

論文メモ SentencePiece: A simple and language independent subword tokenizer and detokenizer for Neural Text Processing

February 29, 2020

SentencePieceは、深層学習向けのトークナイザ・脱トークナイザである。 特定の言語を意識した処理がないため、あらゆるテキストに利用できる。 本論文では、C++やPythonによる実装と翻訳への適用実験について書かれている。 アルゴリズムの解説は、Sennrich et al.Kudo.にゆずられている。 これらの論文について2019年7月13日の記事と2019年7月17日の記事で解説している。

Read more

論文メモ Latent Dirichlet Allocation

February 23, 2020

概要

トピックモデルの潜在的ディリクレ配分法(LDA)の原論文である。 LDAは、テキストコーパスのような離散データの確率的生成モデルである。 意味のあるデータのまとまりに対する端的な説明を与える情報を見つけることを目的としている。 3つの階層からなる階層ベイズモデルである。 、データの要素は、各トピックを表すモデルの混合モデルから生成される。 トピックもまた混合モデルから確率的に生成される。 推論にはベイズ変分法を、パラメタの推定にはEMアルゴリズムをもちいらる。

Read more

論文メモ Unsupervised Pretraining for Sequence to Sequence Learning

February 16, 2020

概要

事前学習とファインチューニングによりseq2seqの汎化性能を改善する手法を提案した論文である。 encoderの重みを学習済み言語モデルの重みで初期化する。 decoderについても、encoderと別の言語モデルを用意し、その重みで初期化する。 ただし、工夫のないファインチューニングをすると破滅的忘却が生じてしまう。 そこで、ファインチューニングでは言語モデルとseq2seqの目的関数の両方を学習につかうことで、過学習をさけ、汎化性能を確保する。

Read more

論文メモ Playing Atari with Deep Reinforcement Learning

February 9, 2020

概要

深層強化学習をAtari2600の7つのゲームに応用し、うち6つについて先行手法の性能を超えたDeep Q-Networks(DQN)を提案した論文である。 ピクセルデータを直接入力として与え、深層学習で方策を学習する手法としては初めて提案された。

Read more

論文メモ context2vec: Learning Generic Context Embedding with Bidirectional LSTM

February 2, 2020

概要

文書の文脈の分散表現を獲得するニューラルネットワークのアーキテクチャcontext2vecを提案、評価した論文である。 アーキテクチャの基本構造はCBOWと同様で、周辺の単語から中心の単語を当てられるようにコーパスをもとにモデルを訓練する。 CBOWとの違いは、文脈の算出方法にある。 CBOWは、ウィンドウ内のベクトルの平均値で文脈の分散表現を求める。 一方、context2vecでは、双方向LSTMの出力をもとに算出する。

Read more

論文メモ NEURAL MACHINE TRANSLATION BY JOINTLY LEARNING TO ALIGN AND TRANSLATE

February 1, 2020

概要

Decoderに注意機構を採用したencoder-decoderモデルを提案した論文である。 ICLR2015で発表された。 論文の発表当時、encoder-decoderモデルによる翻訳の多くは、encoderが入力文を固定長ベクトルに変換し、固定長ベクトルから翻訳された文を出力していた。 著者らは、固定長ベクトルへの変換が長い文の翻訳性能を下げていると考え、固定長ベクトルを注意機構におきかえたencoder-decoderモデルを提案する。 モデルは、翻訳に加え、生成する単語と入力文の箇所の関係を学習する。 推定時には、まず、次に生成する単語に関係する入力文の箇所を推定する。 次に、推定された箇所と生成済の単語列をもとに、単語を生成する。 特に長い文書の翻訳において、固定長ベクトルをつかうモデルよりも、提案手法が優れていることを実験的に示した。

Read more