Effective Multi-Label Active Learning for Text Classification

March 12, 2022

SVMをつかったマルチラベル文書分類のための能動学習である。 ラベルをつければモデルの損失を最も小さくできるデータをさがす。 ラベルつきデータでSVMを学習し、さらに、その識別関数の値を特徴としてラベルの数を予測するロジスティック回帰を学習する。 ラベルのないデータを両モデルに入力し、ロジスティック回帰が予測するラベルの数だけ、識別関数の値の高い順にラベルを選び、そのデータのマルチラベルとみなす。 このとき、その推定したマルチラベルと識別関数の値がほど、損失関数を最も小さくできるデータとみなす。

ロジスティック回帰は、データのラベルの数を予測する。 \(D_l\)をラベルつきデータとし、ラベルの種類\(k\)のマルチラベル分類器\(f\)を\(D_l\)で学習する。 各事例\(\mathcal{\rm x}\)について、ラベル\(i\)の識別関数をシグモイド関数にあたえた結果を\(p(y^i=1\mid\mathcal{\rm x})\)として $$ \sum^k_{i=1}p(y^i=1\mid\mathcal{\rm x}) = 1 $$ に正規化し、降順に\(q_1(\mathcal{\rm x}), \dots , q_k(\mathcal{\rm x})\)とおく。 \(q_i(\mathcal{\rm x})\)を特徴、ラベルを\(i\)としてロジスティック回帰を学習する。

\(D_u\)をラベルのないデータ、\(T\)を繰返し回数、\(S\)を一度の反復でラベルをつけるデータの数として、次の手順を\(T\)回くりかえす。 \(D_l\)でマルチラベル分類器\(f\)とロジスティック回帰を学習する。 各事例\(\mathcal{\rm x}\)について、、ロジスティック回帰の予測するラベルの数だけ識別関数の高いものから正のラベルをつけ、残りを負のラベルとみなす。 この予測したマルチラベルを\(\hat{\mathcal{\rm y}}\)として\(\mathcal{\rm x}\)のスコアを $$ \textit{score}(\mathcal{\rm x}) = \sum^k_{i=1}\left(\frac{1-\hat{y}^if_i(\mathcal{\rm x})}{2}\right) $$ とするとき、スコアの高い\(S\)個の事例にラベルをつけてラベルのあるデータの集合に加える。

論文をこちらからダウンロードできます。