Coda

要約 Applying Conditional Random Fields to Japanese Morphological Analysis

July 17, 2018

Mecabの中の人の資料で紹介でされている、Mecabのアルゴリズムを提案・評価した論文。

CRF(の一種)を使った形態素解析を提案し、提案手法の方がHMMベースの従来手法よりも高い精度で解析できることを実験で示した。

品詞の間には名詞と固有名詞のように階層関係があり、特定の階層の品詞だけを学習データに使うとスパースなデータになったり逆に品詞の粒度が荒すぎたりしてしまう。 そこで、提案手法では階層を問わず品詞を素性関数に与えて品詞の粒度を調整している。

また、HMMだと遷移先が少ない状態(形態素の候補)が多い系列や遷移する状態が少ない系列に高い確率になりやすい問題を取り上げ、 提案手法ではそのような偏りの影響を抑えられると説明されている。

パラメタ推定にある数式の展開を詳しく知りたければ、自然言語処理シリーズ 言語処理のための機械学習入門の5章により詳しく書かれている。

論文はこちら