Coda

論文メモ Multilabel Classification with Label Correlations and Missing Labels

January 6, 2020

概要

ラベルの相関関係を学習し推論に利用するマルチラベルの線形モデルを提案した論文である。 相関関係のあるラベル集合を相関関係のないラベル集合に変換し、ラベルごとに分けて学習する手法、Label transformationを応用する。 分類器は、相関関係だけなく、学習データに与えられていないラベルを推定するように拡張できる。

Label Transformation

Tai and Lin 2012らのlabel transformationは、相関のあるラベル集合を相関のないラベル集合に変換し、ラベル別の学習を可能にする。 学習データを\(\{(\mathrm{x}, \mathrm{y})\}\), \(\mathrm{x}\in \mathbb{R}^d\), 出力を\(\mathrm{y} \in\{0, 1\}^m\), 重みを\(\tilde{W}\), バイアスを\(\tilde{b}\)とすると、\(\mathrm{P}\in \mathbb{R}^{\tilde{m}\times m}\)で変換したラベル\(\tilde{\mathrm{y}}=\mathrm{P}\mathrm{y}\) は次の正規分布にしたがう。 $$ \tilde{\mathrm{y}}\mid\mathrm{x}, \tilde{W}, \tilde{\mathrm{b}},\tilde{\Omega}\sim \mathcal{N}(\tilde{\mathrm{W}}^T\mathrm{x}+\tilde{\mathrm{b}},\tilde{\Omega}) $$ また、正則化のために\(\tilde{\mathrm{W}}=[\tilde{\mathrm{w}}_1, \dots , \tilde{\mathrm{w}}_{\tilde{m}}]\)についてもまた $$ \tilde{\mathrm{w}_i} \mid \tilde{\small{\sum}}_i\sim \mathcal{N}(\mathrm{0}, \tilde{\small{\sum}}_i) $$

とする。 \(\tilde{\sum}_i = \mathrm{diag}(\frac{1}{\alpha_{i,1}},\dots , \frac{1}{\alpha_{i, d}})\)である。 変換前のラベルをえるには、\(\mathrm{P}\)の疑似逆行列\(\mathrm{P}^{\dagger}\)をかけて推定値を変換する。 $$ \mathrm{z} = \mathrm{P}^{\dagger}\tilde{\mathrm{y}} $$

モデル

前述のLabel Transformationでは\(\mathrm{P}^{\dagger}\)を求める必要がある。 これに対し、提案されたモデルは、missingラベルを扱いやすく、また、ラベルの相関関係の事前知識を取入れやすくするために、\(\mathrm{z}\)を直接推定する。 $$ \mathrm{z}\mid \mathrm{x}, \mathrm{W}, \mathrm{b}, \mathrm{\Omega} \sim \mathcal{N}(\mathrm{W}^{T}\mathrm{x}+\mathrm{b}, \Omega) $$ \(\mathrm{W}=\tilde{\mathrm{W}}{\mathrm{P}^{\dagger}}^{T}\), \(\mathrm{b}=\mathrm{P}^{\dagger}\tilde{\mathrm{b}}\), \(\Omega =\mathrm{P}^{\dagger}\tilde{\Omega}{\mathrm{P}^{\dagger}}^{T}\)と対応する。また、\(\mathrm{W}\)の分布は\(\tilde{\mathrm{W}}\)の分布と $$ \mathrm{W}_{(j,:)} \mid \small{\sum}_j \sim \mathcal{N}(\mathrm{0}, \sim \small{\sum}_j), j=1, 2, \dots, d $$ と対応する。ただし\(\sum_j = \mathrm{P}^{\dagger} \mathrm{diag}(\boldsymbol{\alpha}_j){\mathrm{P}^{\dagger}}^T\), \(\boldsymbol{\alpha}_j=[\alpha_{1,j},\dots ,\alpha_{m,j}]^{T}\)である。 ラベルの相関関係の事前知識は、例えば、次のように与えられる。 $$ p(\Omega) \propto \exp \left( -\frac{1}{\lambda_1}\mid\mid \Omega^{-\frac{1}{2}}\mid\mid^{2}_{F} - \frac{1}{\lambda_2}\mid\mid \Omega^{-1}\mid\mid_1 \right), \lambda_1, \lambda_2 > 0 $$

感想

提案手法は線形モデルを前提にしており、他種類のモデルに応用できないところに使いにくさを感じる。 また、実験での比較対象として、リッジ回帰やラベルの相関関係を使う手法だけが選ばれており、これら以外のモデルと比べて高い予測性能をだせるか気にかかる。