論文メモ(2013/04/21-2013/04/27):ゲームにおける進化計算

Matthew Hausknecht, Piyush Khandelwal, Risto Miikkulainen and Peter Stone (2012), "HyperNEAT-GGP: A HyperNEAT-based Atari General Game Player"

  • Artificial Neural Network(ANN)を進化させるNeuroEvolution of Augmenting Topologies(NEAT)がベース
  • HyperNEATではANNの2つのノードの座標を入力,その間の重みを出力するCompositional Pattern Producing Network(CPPN)を進化させる
  • HyperNEATは幾何学的な性質を捉えることができる
  • 画面上のオブジェクト及びその中の自機を検出
  • Atari 2600のゲーム,FreewayとAsterixを使用
  • 自機を移動させて操作するゲームに使えそう
  • ハイパーニートという名前が魅力的

Tristan Cazenave (2007), "Evolving Monte-Carlo Tree Search Algorithms"

  • Monte-Carlo Tree SearchのTree Policy(探索木に追加するノードの選択基準)をGenetic Programming(GP)により進化
  • Tree Policyに使えそうな様々なパラメータを終端記号として用意
  • シミュレーション回数固定でUCT,RAVEを上回るパフォーマンス

Jean-Baptiste Hoock and Olivier Teytaud (2012), "Bandit-Based Genetic Programming"

  • 囲碁プログラムMoGoでは石の周囲のパターンを手の選択に利用
  • そのパターンをGPにより獲得
  • パターンのシミュレーションによる選択・評価に確率的な根拠を与える
  • 既存のMoGoのパターンを元にした場合,若干の改善
  • 一からパターンを学習した場合,今のところ既存のMoGoには及ばないものの,ずっと少ないパターンで一定の勝率を達成しており,その勝率はまだ飽和していない