エンターテイメントと認知科学研究ステーション第5回講演会
エンターテイメントと認知科学研究ステーション第5回講演会が電通大であったので、行ってきました。
内容はUCTの囲碁への応用の理論編と実践編と5五将棋の自己対戦による学習。
UCTはまあある程度理解できたのですが、5五将棋のほうがいまいち理解できず。
5五将棋ってのは以下の局面から始める将棋のようで、成れるのが1列目だけだという以外は、ほぼ将棋と同じルール(持将棋と千日手は違う?)とのこと。
本将棋のようにプロの棋譜が利用できないので、自己対戦での数手先の評価関数を元に評価の重みを調整しているってことがミソらしいだけど……なんかそこがいまいち具体的にイメージできず。正直よく理解できなかった。
例えば、後手1一玉のときの2三銀の価値を学習させるのは、
その数手先までをmax-minで探索して、駒の位置関係だけではなくて、駒割とか玉の安全度とか、すべての要因を使って評価した評価値を使って目先の銀の価値の重み付けを変えているってことなのかな?
要するに、ここで銀をこう動かしておくと、数手先には駒得する(あるいは玉の安全度が高くなる)から、
この銀の位置は評価が高いってこと??
いまいち分からないのは、自分自身で自分を評価してるんだから、
俺様ワールド全開な自己チューな価値観の世界に落ち込まないのか?
そもそもこの評価方法でうまくいくのは学習する前の評価関数が既にある程度強いからだというニュアンスに聞こえた。それに学習前と学習後で強さも比較してないんだから、これが正しいのかどうかさっぱり??
それと1一に後手玉が居るときの先手銀の評価価値の学習結果をスライドで紹介していて、
2四や44の地点の評価が高く、3四の地点の評価が低かったけど、これは、
相手玉との位置関係で評価しているというより、
初期局面から3四銀に上がると、(銀が戻れない&角が動けないので)着手可能数が少なくなってしまうことが影響しているのであって、相手玉との位置関係を評価しているわけではないのでは?
同様に、4四銀もどちらかというと相手玉との位置関係の評価というよりも、
自分の王を守っているということで、ポイントが高くついているだけのような気がするんだけど。
なんだか中盤戦が長く続く大混戦になったら無意味な評価値になるそうな気がしたんだけどどうなんだろう。
(成りゴマができ難いため、盤面が狭い割には意外と長く中盤戦が続くのでは?)
でも、結果を出しているんだからきっと正しいのだろうな。
| 固定リンク
この記事へのコメントは終了しました。
コメント