論文メモ Classification in the Presence of Label Noise: a Survey
December 30, 2019概要
ノイズのある教師データによるクラス分類のサーベイ論文である。発表時期は、2013年の12月である。 主な内容は、ノイズの分類、ノイズが分類に及ぼす影響、ノイズへの対策である。
ノイズの前提・原因・分類
前提
論文におけるノイズは、データのラベルが真のラベルと異なることを意味する。 ノイズは、確率的に生じ、意図的ではない前提にある。 また、サンプルごとのノイズは互いに独立である。
原因
ノイズの原因を4つに分類されている。
- 正しいラベルをつけるために必要な情報が専門家に与えられていない。
- 必要な情報を知った上で専門家が誤ったラベルをつける。
- 正しいラベルが主観的であり、専門家の間で正しいラベルの意見が分かれる。
- クリックの操作ミスなどのデータの加工やコミュニケーションに誤りがあること。
分類
ノイズは、真のラベルや特徴との独立性により、3種類に分類される。
各種類の依存関係を描いた図を次に示す。
\(X\)は特徴ベクトル、Yは真のラベル、\(\tilde{Y}\)は観測されたラベル、\(E\)は誤ったラベルがはられている(\(Y\neq\tilde{Y}\))を示す。
(a)は、特徴や真のクラスと無関係にノイズが生じる状態である。
この場合、各クラスにおけるノイズの発生確率は等しい。
(b)は、ノイズが真のラベルに依存する状態であり、他のクラスよりもラベリングの誤りの生じやすいクラスがある。
(c)は、ノイズが特徴や真のラベルに依存し、ある特徴をもつ特定のクラスのデータでラベルの誤りが生じやすい。
ノイズによる影響
ノイズがクラス分類に及ぼす影響は影響先により4つに整理されている。 モデルの予測性能、学習に必要な教師データ数やモデルの複雑さ、観測されるクラスの頻度、特徴選択などの関連タスクである。
モデルの予測性能と複雑さについては、アルゴリズムごとにノイズへの影響が調べられている。 ZhangとYang[97]は、テキスト分類における線形分類器の正則化のノイズに対する頑強さを調べた。 線形SVM、リッジ回帰、ロジスティック回帰では、いずれも5%のラベルを反転させると予測性能の大幅な低下がみられた。 AdaBoostは、ノイズのある教師データについて過学習する傾向にある[103]。 また、ノイズはモデルを複雑にする。 決定木のアルゴリズムでは枝の増加につながり[46]。 また、SVMではサポートベクタの数の増加につながる[113]。
ノイズへの対処
ノイズに対する手法は、ノイズに対して頑強なもの、学習前にノイズを除去するもの、ノイズの分布を仮定しノイズのモデルを使うもの、既存のモデルをノイズに耐性のあるモデルに改良されたものに大別される。
次の表は、各手法の代表例をまとめている。