Coda

メモ A Survey on Data Collection for Machine Learning

October 26, 2019

表題の論文は、文字通り、機械学習に使う教師データに関するサーベイ論文であり、 機械学習や自然言語処理などのデータの応用分野だけでなく、データの管理にまつわる分野の調査も含まれているところに特徴がある。 データの管理に着目している理由は、深層学習の発展によって必要な教師データが増えたことで、データの管理の課題が顕在化してきたことである。

調査範囲は、次の図が示すように、大きく3つに別れる。それぞれは、データの取得、データへのラベル付け、既存のデータやモデルの改善に分類される。青色の単語はデータ管理の分野である。さらに下の流れ図は、これらの分野の技術を適用すべき状況を整理している。ただし、6節の今後の課題にあるように、流れ図は不完全なものであり、今後洗練される必要があるとされている。

fig1

fig2

取りあげられた論文の中で気になったものを以下にとりあげる。