【将棋】オンライン学習中

所謂、激指メソッド?で学習中です。平均化のやり方はよく分からないので省いています。
並列化していないのですが、深さ3の5000局で一日半で終わります。
去年はボナメソで並列化して1週間くらい学習した後にバグを見つける・・・の
繰り返しで、結局2〜3カ月かかってしまい、非常につらかったのですが、
激メソだとかなり開発が楽になりました。

オンライン学習のポイントは、学習させる順番で結果が大きく依存してしまうので
■学習局面をランダムにシャッフルさせて偏りをなくすこと、
■指手も全手生成せず、ランダムに20手くらい生成する(正解手は必ず生成)こと
■あと、終盤は1手が命取りになるので、終盤ほどマージンを大きくする
という感じでしょうか。

kuma_test_lという名前でfloodgateに流しています。
まだ弱いですが、じわじわ強くなっている気がします。
途中結果は以下のような感じです(phpスクリプト組みました)。
KKPの結果です。参考にbona6.0の評価値も載せています。

金の評価値


飛車の評価値

なかなか面白いです。
なんとなく傾向は似ているので、それなりに学習はうまくいっているかと。
勝手に矢倉や穴熊も組んでくれるし。
全体的に絶対値が低いのは、学習回数が足らないせいです。
このため、相手玉の離れた位置に余計なと金を作って、
終盤にあっという間に負けるようです。