論文メモ（2013/12/29-2014/01/04） - 学生時代に頑張ったことが何もない

強化学習におけるDeep Learningの試み
Q-learningにおけるQ関数の学習に3つの隠れ層を持つネットワークを用いる（Deep Q-Network，略してDQN）
- 入力は画面のピクセルの縮小・グレイスケール版（84x84x4）
- 最初の2つの隠れ層は畳み込み層
Experience Replay
- 各ステップの遷移 $(\phi(s_t), a_t, r_t, \phi(s_{t+1}))$ をreplay memoryに保存
- replay memoryからランダムサンプリングした遷移を学習に使う
Atari 2600のゲームのうち7つで評価
- 6つのゲームで既存手法を上回る
- 3つのゲームでHuman Expertを上回る

機械学習における経験損失と正規化項の和の最小化のためのアルゴリズムFOBOSを提案
重みベクトルの更新のイテレーションを2ステップに分ける
1. 経験損失を劣勾配法で最小化する方向に更新した $w_{t+1/2}$ を求める
2. $w_{t+1/2}$ との距離を小さく保ちながら正則化項を劣勾配法で最小化
L1正則化とともに用いた場合に，劣勾配法に比べてスパースな解が得られやすい