Coda

要約 A Simple Semi-supervised Algorithm For Named Entity Recognition

July 17, 2018

概要

CRFに入力する学習データを集めるための半教師学習の手法を提案と評価した論文。 本手法はCRFに与える学習データを集めるための手法であり、CRFのアルゴリズム自体に変更を加えることはない。

アルゴリズム

以下の1-3を繰り返す手順。 1. ラベルありデータで分類器を作る。 2. 作った分類器と規則によって、ラベルなしデータからラベルありデータを組成する。 3. 組成されたデータをラベル付きデータに加える。

手順2では、分類器が正しく分類できなかったデータを集めるために、 低いconfidence scoreでセグメント(単語の列)に与えられたラベルを著者らの提案する規則にしたがって別のラベルに置換した上で、 置換後の系列をラベル付きデータに加える。

組織ラベルに関する規則であれば、同じ文書の中で同一のセグメントが複数回出現し、 あるセグメントが高いconfidence scoreで組織がタグ付けされたら、残りのセグメントも組織でラベルを付け直す、というものがある。
この規則は、同じ文書で複数回出現するセグメントがは同じ固有表現を持つという仮説に支えられている。

結果

教師あり学習と比べて、再現率に12%, 適合率に4%の改善がみられた。


論文はこちらからダウンロードできます。