Coda

メモ Enriching Word Vectors with Subword Information

August 10, 2018

概要

Fasttextを提案、評価した論文。 Character n-gramsを入力としてskip-gramのモデルを作る方法を提案、評価している。 単語の部分文字列(subword)を使わない手法や形態素解析に頼る手法よりも提案手法が優れていることを実験で示した。 部分文字列のベクトルの和が単語のベクトルとなる。 実験の考察では、そのために、未知語の部分文字列が学習データにあれば、未知語に対しても妥当な分散表現を与えることができるとあった。

Read more

概要 When Do Chagnes Induce Fixes?

August 3, 2018

概要

ざっくり言うと、バージョン管理ツールとバグチケット管理ツールを導入しているプロジェクトにおいて、 バージョン管理ツールで追跡されている変更とバグチケット管理ツールで追跡されているバグを紐付ける手法を提案した。

Read more

要約 A Simple Semi-supervised Algorithm For Named Entity Recognition

July 17, 2018

概要

CRFに入力する学習データを集めるための半教師学習の手法を提案と評価した論文。 本手法はCRFに与える学習データを集めるための手法であり、CRFのアルゴリズム自体に変更を加えることはない。

Read more

要約 Applying Conditional Random Fields to Japanese Morphological Analysis

July 17, 2018

Mecabの中の人の資料で紹介でされている、Mecabのアルゴリズムを提案・評価した論文。

Read more

概要 Text Classification from Labeled and Unlabeled Documents using EM

July 8, 2018

アルゴリズム

提案手法は、Naive BayesとEMアルゴリズムを組み合わせたもの。 ラベル付きデータが\(D^l\)でラベルなしデータが\(D^u\)で表されるとき、対数尤度\(\log P(D^l)P(D^u)\)を最大化する問題を解く。

Read more