Posts

メモ Enriching Word Vectors with Subword Information

概要

Fasttextを提案、評価した論文。 Character n-gramsを入力としてskip-gramのモデルを作る方法を提案、評価している。 単語の部分文字列(subword)を使わない手法や形態素解析に頼る手法よりも提案手法が優れていることを実験で示した。 部分文字列のベクトルの和が単語のベクトルとなる。 実験の考察では、そのために、未知語の部分文字列が学習データにあれば、未知語に対しても妥当な分散表現を与えることができるとあった。

概要 When Do Chagnes Induce Fixes?

概要

ざっくり言うと、バージョン管理ツールとバグチケット管理ツールを導入しているプロジェクトにおいて、 バージョン管理ツールで追跡されている変更とバグチケット管理ツールで追跡されているバグを紐付ける手法を提案した。

要約 A Simple Semi-supervised Algorithm For Named Entity Recognition

概要

CRFに入力する学習データを集めるための半教師学習の手法を提案と評価した論文。 本手法はCRFに与える学習データを集めるための手法であり、CRFのアルゴリズム自体に変更を加えることはない。

要約 Applying Conditional Random Fields to Japanese Morphological Analysis

Mecabの中の人の資料で紹介でされている、Mecabのアルゴリズムを提案・評価した論文。

概要 Text Classification from Labeled and Unlabeled Documents using EM

アルゴリズム

提案手法は、Naive BayesとEMアルゴリズムを組み合わせたもの。 ラベル付きデータが\(D^l\)でラベルなしデータが\(D^u\)で表されるとき、対数尤度\(\log P(D^l)P(D^u)\)を最大化する問題を解く。