Coda

概要 Learning Active Learning from Data

July 27, 2019

概要

表題にある論文は、次にラベルを与えるべきデータが何かという能動学習における問題を、 あるサンプルを教師データに追加したときの損失関数の減少値を予測する回帰の問題としてとらえる。 能動学習の目的は最小限データで最大の予測性能をもつモデルを構築することであり、次にアノテーションすべきデータが何かを正しく予測することが課題になる。 論文は、アノテーションすべきサンプルを予測する回帰モデルを学習するアルゴリズムを提案、評価する。アルゴリズムは2値分類の分類器を対象としている。

回帰モデルは、分類器にラベルなしのサンプルの与えたときの出力と学習済み分類器のパラメタを入力として、サンプルを教師データに加えたときの汎化誤差の減少値を予測する。 論文では、この回帰モデルを学習するための2通りのアルゴリズムが提案されている。本稿では、そのうちの1つである BUILDLALINDEPENDENT についてまとめる。

回帰モデルの教師データの作成するために、訓練データ\(\mathcal{D}\)、テストデータ\(\mathcal{D}’\)、分類器のアルゴリズム\(f\)を入力として、\(2\leq\tau\leq T+1\)について\(Q\)回以下のステップを実行し、\(QMT\)件の教師データを作成する。

  1. \(D\)を、\(\tau\)件の訓練データ\(\mathcal{L_{\tau}}\)とラベルなしデータに\(\mathcal{U}_{\tau}\)に分ける。
  2. \(\mathcal{L_{\tau}}\)で\(f_{\tau}\)を学習する。
  3. \(D’\)で汎化誤差\(\ell_{\tau}\)を計算する。
  4. \(f\)の状態を\(\{\phi^1_\tau, \dots,\phi^K_\tau\}\)を記録する。\(\phi\)には、分類器固有の値や訓練データに影響される値などの値がいる。例えば、木の深さやカーネル関数の種類が値になりえる。
  5. \(1\leq m\leq M\)の範囲で以降のステップを繰り返す。
  6. 無作為に\(x\in\mathcal{U}_\tau\)を選び、\(\mathcal{L}_\tau\cup\{x\}\)を\(\mathcal{L}_x\)として新たな訓練データを作成する。
  7. \(x\)があるクラスに属する確信度や、\(x\)から最も近いラベル付きデータからの距離など、\(f\)に入力される特徴以外の\(x\)の要素を、\(\{\psi^1_x,\dots,\psi^R_x\}\)として記録する。
  8. \(\mathcal{L}_x\)で\(f_x\)を学習し、\(D’\)をもとに汎化誤差\(\ell_x\)を求める。
  9. \([\phi^1_\tau\ \dots\ \phi^K_\tau\ \psi^1_x\ \dots\ \psi^R_x]\)を\(\xi_m\)、\(x\)を訓練データに加えたことで減少した汎化誤差\(\ell_\tau - \ell_x\)を\(\delta_m\)として、回帰モデルの訓練データの一つとして記録する。

収集した教師データで学習した回帰モデルを\(g\)とすると、以下の\(x^*\)が最も汎化誤差を小さくするためにアノテーションすべきサンプルの推定値となる。

$$ \newcommand{\argmax}{\mathop{\rm arg~max}\limits} x^{*} = \argmax_{x\in\mathcal{U}_t} g(\phi_t,\psi_x). $$

感想

データの分布が及ぼす性能への影響を分析に人工データを使うところが参考になる。 分類器の状態\(\phi\)を特徴に含めているので、評価において様々な分類器やハイパーパラメタのモデルの評価をしてほしかった。


論文はこちらから ダウンロードできます。