Coda

論文メモ Extracting and Composing Robust Features with Denoising Autoencoders

August 21, 2020

ノイズを含む入力からノイズのない入力を復元するように学習すると、次元圧縮の性能を向上できることを示した。 層の深いautoencoderを学習するには、良い初期値を与えなければらないことが知られていた。 先行研究は、各中間層を個別に学習することで、良い初期値を求められることを示した。 具体的には、各中間層について、前の層の入力から次の層の出力を推定できるよう個別に学習させる。 一方で、何が良い初期値をなすのかは知られていなかった。 表題の論文は、その条件は入力に含まれるノイズに対して頑強であると仮説をおき、ノイズを除去できるように目的関数を設定することで、次元圧縮の性能が上がることを示し、仮説の正しさを確かめた。

目的関数を説明するにあたり、ノイズのない入力\(\mathrm{\boldsymbol{x}}\in [0, 1]^d\)からノイズのある入力\(\tilde{\mathrm{\boldsymbol{x}}}\)をつくるために、確率\(\nu\)で\(\nu d\)個の要素を0に変える場合を考える。 ネットワークが1つの中間層だけをもち、\(s(\mathrm{\boldsymbol{x}})\)をシグモイド関数として、中間層の表現を\(f_{\theta}(\mathrm{\boldsymbol{x}})=s(\mathrm{\boldsymbol{Wx+b}})\), 出力を\(g_{\theta’}(\mathrm{\boldsymbol{y}})=s(\boldsymbol{\mathrm{W’y+b’}})\)とするとき、目的関数は次の式になる。

$$ \underset{\theta, \theta’}{\operatorname{argmin}}\mathbb{E}_{q^0(X, \tilde{X})}\left[L_{\mathbb{H}}\left(X,g_{\theta’}(f_{\theta}(\tilde{X}))\right)\right] $$

\(q^0(X, \tilde{X})\)は、学習データにおける\(X\)と\(\tilde{X}\)の同時確率分布, \(L_{\mathbb{H}}\)は交差エントロピーを示す。 $$ L_{\mathbb{H}}(\mathrm{\boldsymbol{x}}, \mathrm{\boldsymbol{z}})=-\sum^d_{k=1}\left[\boldsymbol{\mathrm{x}}_k\log\mathrm{\boldsymbol{z}}_k+(1-\mathrm{\boldsymbol{x}}_k)\log(1-\mathrm{\boldsymbol{z}}_k)\right] $$


論文をこちらからダウンロードできます。