ドーピング

どうも今の学習では、玉から離れた位置にと金を作ったり、駒をとったり
して、寄せが弱いようです。


と金を作るのは、歩80点から金500点になるわけだから、すごく駒得になります。
この誘惑に勝てるように、位置評価を相当マイナスにしないといけません。
ところが、ボナメソのシグモイドだとこれが難しい。


学習初期値をゼロから始めた場合、駒価値のみのスタートとなるので、
そのまま学習時に探索をすると、正解手:0点、と金を作る手:500点
とかになる。シグモイドの微分値は500点も離れるとほぼゼロになるし、
そもそも学習探索窓から外れるので、「と金」生成防止のための
評価値調整が行われなくなってしまう。


bona6.0の評価関数はどうやって作っているかは分かりませんが
学習探索窓やシグモイドの傾きを調整したり、こちらで初期値を与えたり
しないと難しそうです。


一方の激指メソッドのパーセプトロンだと、シグモイドをかけないので
上記のような場合でも、一律に評価値更新がかかってきます。
過学習も大きそうですけど。過学習を防ぐために、平均化や
評価値の差をしきい値に更新の有無を判定しているようです。


クマ将棋のオンライン学習はシグモイド+激メソ風マージンでやっているので
上記の「と金」生成が問題になっていたので、無理やり、玉から離れた位置の
金の価値を初期値で大きくマイナスにしています。
これで一応、と金生成が回避できましたが、序盤が変になった感じがします。


学習のさせ方も色々とコツがあるんだな、という印象です。