抄訳 SMOTE: Synthetic Minority Over-sampling Technique(2002)
August 31, 2022SMOTEはオーバーサンプリングで不均衡データの予測性能の向上をはかる。 少数クラスのサンプルからk近傍にあるサンプルのうち1つをランダムに選ぶ。 もとのサンプルと選ばれたサンプルの各特徴の差に[0,1]区間のランダムな値を掛け、その値をもとのサンプルに足して、少数クラスのサンプルを合成する。
SOMTEは、少数クラスの\(T\)個のサンプルのほかに、近傍の大きさ\(k\), 1つのサンプルから合成するサンプルの割合\(N\)を受けつける。このとき、SOMTEは\(N/100 \times T\)個のサンプルを生成する。 \(N\)が\(T\)より小さければ、 $$ \begin{align} T &= (N/100) \times T\\ N &= 100 \end{align} $$ としてランダムに選んだ\(N/100\times T\)個のサンプルのみを合成につかう。
雑記
少数クラスに分類されやすくなる手法なので、少数クラスについて偽陽性が高ければ控えたほうがよさそう。 実験の評価には、ROCが使われている。不均衡データの場合、ROCは評価が甘くなりやすく、PR-AUCとROC-AUCではAUCを最大化できるポイントが違うので、どうしてROCで評価したのか気になる。
論文へのリンク