論文メモ(2013/04/21-2013/04/27):ゲームにおける進化計算
Matthew Hausknecht, Piyush Khandelwal, Risto Miikkulainen and Peter Stone (2012), "HyperNEAT-GGP: A HyperNEAT-based Atari General Game Player"
Tristan Cazenave (2007), "Evolving Monte-Carlo Tree Search Algorithms"
- Monte-Carlo Tree SearchのTree Policy(探索木に追加するノードの選択基準)をGenetic Programming(GP)により進化
- Tree Policyに使えそうな様々なパラメータを終端記号として用意
- シミュレーション回数固定でUCT,RAVEを上回るパフォーマンス
Jean-Baptiste Hoock and Olivier Teytaud (2012), "Bandit-Based Genetic Programming"
- 囲碁プログラムMoGoでは石の周囲のパターンを手の選択に利用
- そのパターンをGPにより獲得
- パターンのシミュレーションによる選択・評価に確率的な根拠を与える
- 既存のMoGoのパターンを元にした場合,若干の改善
- 一からパターンを学習した場合,今のところ既存のMoGoには及ばないものの,ずっと少ないパターンで一定の勝率を達成しており,その勝率はまだ飽和していない