Coda

メモ Class Imbalance, Redux

September 7, 2019

表題の論文は、不均衡データの特徴が二値分類の予測性能に及ぼす影響を理論づける論文である。 理論と実験を通じて、多くのケースにおいて、アンダーサンプリングによる均衡データのバギングで予測性能があがったことを示している。 バギングは、アンダーサンプリングによる偏りを抑えて予測性能を安定させるために使われる。 論文で扱うモデルは、SVMなどの学習で経験損失を最小化するモデルに限定されている。発表学会は2011年のICDMである。

論文で扱う不均衡データとデータから学習したモデルの偏りは次の図で表現できる。 fig1

バツは正例の、四角は負例のサンプルを示す。\(w^{*}\)は最適化された、\(\hat{w}\)は教師データ\({\mathcal D}\)から学習した識別境界を示す。 \(\mathcal{R^{+}_{w^{*}}}\)と\(\mathcal{R^{-}_{w^{*}}}\)は、識別境界\(w^{*}\)が正例、負例と推定する領域を示す。 左右の曲線は、正例及び負例の分布\(P\), \(G\)を示す。以上をもとに、予測性能を下げる偏りは $$ \mathcal{R^{\hat{w}}_{+}} < \mathcal{R^{w^{*}}_{+}} $$ と定義される。

次に、以上の偏りが生じる条件を求める。まず、偽陽性と偽陰性のコストを\(\mathcal{C}_\text{fp}\), \(\mathcal{C}_{\text{fn}}\)として、経験損失を

$$ \mathcal{L_{D}}(w) = \mathcal{C}_\text{fn}\mid \{x\mid x\in \mathcal{D^+}\wedge x \in \mathcal{R}^{w}_{-} \} \mid + \ \mathcal{C}_\text{fp}\mid \{x\mid x \in \mathcal{D}^{-} \wedge x \in \mathcal{R}^{w}_{+} \}\mid $$ と表す。このとき偏り\(\mathcal{R^{\hat{w}}_{+}} < \mathcal{R^{w^{*}}_{+}}\)が生じる条件は、

$$ \exists w^{\gamma}\ s.t.\ \forall w’ \in \{w : \mathcal{R}^{w}_{+} \ge \mathcal{R}^{w^{*}}_{+} \}, \mathcal{L}_{\mathcal{D}}(w^{\gamma}) < \mathcal{L}_{\mathcal{D}}(w’) $$ となる。上の図でいえば、これは、\(w^{*}\)より右側のどんな識別境界の経験損失よりも小さい経験損失の識別境界が左側に存在する状態をさす。

今度は、偏りのもとになる\(w^{\gamma}\)が生じやすい状況を考える。母集団における正例の割合を\(\pi(\le0.5)\)とすると、件の状況は、

$$ (1-\pi)\mathcal{C}_\text{fp}\int_{\mathcal{R}^{+}_{w^{*}}}G(x)> \pi\mathcal{C}_\text{fn}\int_{\mathcal{R}^-_{w^{*}}}P(x) dx $$

となる。式で着目している領域は、\(w^{*}\)の足元にある図中の\(P\), \(G\)と底辺で囲まれた範囲である。\(\pi\)に着目すると、この式が最も成立しにくいのは\(\pi=0.5\)のときである。以上より、最適な識別境界に近い識別境界を求めるためには、均衡なデータを用意することが望ましい。

不均衡データへの別のアプローチに偽陰性に対するコストを偽陽性よりも大きくする手法があり、これが有効にはたらく状況についても議論されている。 前提として、偽陰性の誤りが生じなければアプローチがはたらかない。このような、識別境界\(\hat{w}\)による偽陰性のエラーとなるサンプルが教師データ\(\mathcal{D}\) 上にある確率は

$$ \pi\mid \mathcal{D}\mid \int_{\mathcal{R}^{-}_{\hat{w}}}P(x)dx $$ である。以上の式より、コストの重みを変える手法は、データが不均衡で、教師データの数が少ない場合には有効にはたらかないことが分かる。


論文の出所はこちら