simk_10000_pr再度

もろもろのバグを直して、再度、10000局で学習させたバージョンです。
バグを直したはずなんですが、前回と比べてあまり強くなっていない気がします。
学習では、深さがルートから1手+静止探索でPVを作っているけど
浅すぎるのかもしれない。反復回数も足らないのかもしれない。



学習経過のグラフです。横軸が学習の反復回数で、縦軸が一致率。
ペナルティは0.3です。ペナルティをなくすと、学習データでの一致率は
いくらでも上がるのですが、テストデータ(学習には使っていないデータ)
での一致率が悪くなっては意味がないです。
いかにテストデータでの一致率を良くするかが重要です。
このために将棋に特有の特徴を追加したり、ペナルティを調整したり、
探索法を改めたりするのだと思います。


一般のパターン認識だと、交差確認法といって、10個のデータがあると
1個のテストデータと、9個の学習データに分けて(×組み合わせ10通り)
その平均認識率を見て、追加した特徴が良いか悪いかを判断するのですが
将棋だと、特徴ベクトルの数が多すぎたり、学習に時間がかかってしまうので
難しそうです。


今、深さ2で学習回しています。深さを2にすると一気に計算時間が多くなり、
現在、10回の反復回数で、テストデータの一致率が40%くらい。
深さ1の時より、一致率は悪くなっているのですが、自己対戦では
35勝17敗4分と明らかに強くなっているようです。
有る程度の深さを探索した上で、一致率が高くないと駄目なのかもしれません。