Coda

メモ Feature Selection for Text Categorization on Imbalanced Data

October 12, 2019

概要

表題の論文は、特徴選択において、正例に顕著な特徴から選ぶ割合を明示的に決めることで、正例と負例それぞれに顕著な特徴の割合を調整することが、不均衡な文書分類における予測性能の向上に役立つことを示した。 情報利得やオッズ比など単変量統計にもとづく特徴選択において、統計量の値によって暗黙的に決められた割合と異なる割合の場合の方が予測性能が高いことを実験的に示した。

比較対象となる統計量は情報利得, カイ二乗, 相関係数、オッズ比がある。 これらの統計量は、正と負の値がそれぞれ正例と負例に顕著な特徴に対応するものを片側(one-side)、 非負の値しかとらず正例と負例の一方において顕著な特徴に対応するものを両側(two-side)のメトリクスとして分類している。次のように特徴とクラスの諸確率を定義すると、 相関係数とオッズ比は片側、情報利得とカイ二乗は両側に分類できる。

以上の諸確率の場合、割合を調整しなければ、片側のメトリクスだと正例に顕著な特徴から順に選ばれ、両側であれば正例と負例いずれかにおいて顕著な特徴から順に選ばれる。

正例と負例それぞれに顕著な特徴の割合の調整をする場合、 \(\mathfrak{F}(t, c_i)\)を値が大きいほど単語\(t\)がカテゴリ\(c_i\)に属する傾向にあることを示す関数とすると、割合にもとづく特徴選択を統計量によらず一般化できる。 具体的には、\(\mathfrak{F}(t, c_i)\)の降順に\(l_i\)個の特徴\(F_i^+\)を選び、 \(\mathfrak{F}(t, \bar{c}_i)\)の降順に\(l-l_i\)個の特徴\(F_i^-\)を選べば、正例に顕著な特徴の割合が\(l_i/l\)の特徴の集合\(F_i\)をつくることができる。相関係数やオッズ比のような片側のメトリクスであれば、\(\mathfrak{F}\)として使うことができる。


論文はこちらからダウンロードできます。