Coda

論文メモ Get Another Label? Improving Data Quality and Data Mining Using Multiple, Noisy Labelers

November 9, 2019

概要

ある確率でデータに誤ったラベルをふるlabelerでデータにラベルをふるときに、 既にラベルのあるデータに重ねてラベルをふるべきか調査した。 12種類のラベルつきデータセットを使い、 正解ラベルを誤ったラベルに置換する割合や同一のデータのもつラベルの数を変化させ、モデルの精度の違いを観察した。 加えて、ラベルをふるべきデータを推定する手法も提案している。

ラベルを重ねるべきか

同じデータに重ねてラベルをふることで教師データの質やモデルを改善できることが分かった。 labelerが正しいラベルを与える確率が\(p\)のときの精度を比較した実験結果を以下に示す。 SL(Single Label)はラベルを重複して与えない場合を、 MV(Majority Vote)はデータに与えられた複数のラベルのうち最も数の多いラベルを採用する場合を示す。 MVの場合、ラベルの数が増えてもデータの数は固定される。 また、データごとのラベルの数が均等になるよう順番にラベルが与えられる。 \(p\)が0.8と場合はSLのAccuracyが高く\(p\)が低い場合はMVの方が高く、 ノイズが高いほどラベルを重ねる効果が発揮されてる。

get_another_label

ラベルをふるべきデータの推定

ラベルをふるべきデータの推定は、不確かさを基準にする。 ここでの不確かさはモデルの推定の不確かさ\(S_{MU}\)とデータにふられたラベルの不確かさ\(S_{LU}\)の幾何平均\(S_{LMU}=\sqrt{S_{MU}\cdot S_{LU}}\)である。 モデルの数を\(m\), \(P(+\mid x,H_i)\)を\(H_i\)が出力する\(x\)が正例(\(+\))である確信度とすると\(S_{MU}\)は次の式で表わされる。 $$ S_{MU} = 0.5 - \mathrel{\bigg|} \frac{1}{m} \sum_{i=1}^{m}Pr(+\mid x, H_i) - 0.5 \mathrel{\bigg|} $$ データにふられたラベルの中で最大数のラベルを\(y_m\)とすると、\(S_{LU}\)は\(y_m\)が正しいラベルであることの不確かさである。 この不確かさをベイズ推定で求める。 \(L_{pos}\)と\(L_{neg}\)を正のラベルと負のラベルの数、事前分布を一様分布、事後分布を\(B(L_{pos}+1, L_{neg}+1)\)とすると、累積分布関数\(I_x\)で閾値を\(x\)とする不確かさを定義できる。 $$ I_{x}(\alpha, \beta)\sum_{j=a}^{\alpha +\beta -1}\frac{(\alpha + \beta - 1)!}{j!(\alpha + \beta - 1 -j)!}x^j(1-x)^{\alpha + \beta -1 -j} $$ 論文では、\(x=0.5, \alpha = L_{pos}+1, \beta=L_{neg}+1\)として $$ L_{LU} = min\{I_{0.5}(L_{pos}, L_{neg}), 1 - I_{0.5}(L_{pos}, L_{neg}) \} $$ としている。