Coda

概要 Text Classification from Labeled and Unlabeled Documents using EM

July 8, 2018

アルゴリズム

提案手法は、Naive BayesとEMアルゴリズムを組み合わせたもの。 ラベル付きデータが\(D^l\)でラベルなしデータが\(D^u\)で表されるとき、対数尤度\(\log P(D^l)P(D^u)\)を最大化する問題を解く。

まず、ラベルつきのデータとNaive Bayesで分類器を作る。 以降は次のE, Mステップをパラメータの更新が収束するまで繰り返し。

E 分類器でラベルのないデータにラベルをつける。 M 直前のEステップでラベルをつけられたデータとラベル付きデータを最も生成しうるパラメタに分類器のパラメタを更新する。

提案手法の精度は教師あり・なしの数の割合や文章の生成モデルに影響される。 これについて論文の後半では、 教師なしのデータがパラメタに与える影響を調整する変数を導入したり 各クラスを複数のサブクラスに分割できる前提を導入したりすることで、 教師なしデータや生成モデルの影響を調整し精度を改善できることを実験的に示した。

実験結果

教師ありデータが教師なしデータに比べてずっと少ないときほど、教師あり学習よりも良い結果が出やすい。

感想

Semi-Supervised Learning自然言語処理シリーズ 言語処理のための機械学習入門でも紹介されているので、比較的有名な手法なんだと思う。 そうであれば、半教師学習によるテキスト分類のベースラインにできると思う。

一方で、ラベル付きのデータが少ないと交差検証に使えるデータも少なくなる。そのため、本手法が効果を出せる状況ではモデル評価の信頼性が低くなる。 この点が本手法の使い勝手が難ところだと思う。

論文はこちら