Coda

論文メモ Playing Atari with Deep Reinforcement Learning

February 9, 2020

概要

深層強化学習をAtari2600の7つのゲームに応用し、うち6つについて先行手法の性能を超えたDeep Q-Networks(DQN)を提案した論文である。 ピクセルデータを直接入力として与え、深層学習で方策を学習する手法としては初めて提案された。

アルゴリズム

DQNは、Q関数の関数近似噐に畳み込みニューラルネットワーク(CNN)を使う適合Q反復法である。 環境\(\epsilon\)を推定しないモデルフリー型で、環境の相互作用から得た大量のデータから方策を学習するバッチ学習に分類される。 確率的勾配降下法によりモデルの重みを更新する。 ただし、時間ステップの近い経験データ間には強い相関があるが、SGDは経験をiidに観測できていることを想定している。 そこで、経験データを一様に乱択する経験再生で選ばれた経験データで重みを更新する。 DQNのアルゴリズムを以下に示す。方策モデルには、\(\epsilon\)貪欲方策が採用されている。 ただし、\(x_i\)は画面のイメージ、CNNに入力するために可変長の履歴データを固定長に変換する関数を\(\phi\)とする。 algorithm 図の方程式3は、ベルマン方程式のQ関数を重みを\(\theta\)とする関数近似噐\(Q(s,a;\theta_i)\)で近似したときの損失関数\(L_i(\theta_i)\)を $$ L_i(\theta_i)=\mathbb{E}_{s,a\sim \rho (\cdot) }\big[(y_i - Q(s,a;\theta_i))^2\big] $$ としたときの勾配\(\nabla_{\theta_i}L_i(\theta_i)\) $$ \nabla_{\theta_i}L_i(\theta_i) = \mathbb{E}_{s,a\sim \rho(\cdot);s’\sim\epsilon}[\left(r+\gamma\max_{a’}Q(s’, a’;\theta_{i-1})-Q(s,a;\theta_i)\right)\nabla_{\theta}Q(s,a;\theta_i)] $$ である。\(\rho(s, a)\)は状態\(s\)と行動\(a\)の確率分布である。