論文メモ(2013/12/29-2014/01/04)
D. Mnih et al. (2013), "Playing Atari with Deep Reinforcement Learning"
- 強化学習におけるDeep Learningの試み
- Q-learningにおけるQ関数の学習に3つの隠れ層を持つネットワークを用いる(Deep Q-Network,略してDQN)
- 入力は画面のピクセルの縮小・グレイスケール版(84x84x4)
- 最初の2つの隠れ層は畳み込み層
- Experience Replay
- 各ステップの遷移をreplay memoryに保存
- replay memoryからランダムサンプリングした遷移を学習に使う
- Atari 2600のゲームのうち7つで評価
- 6つのゲームで既存手法を上回る
- 3つのゲームでHuman Expertを上回る