simk_1000_p - スズメレンダラー・クマ将棋の開発日記

1000局で学習したバージョンをfloodgateに投入しています。
３駒関係＋玉の周囲の駒特徴を入れています。学習した駒割は以下。

そんなに変な値にはなっていないので多分うまくいっていると思う。
以下、メモ。

最善手のPVは固定長ではないので評価値の符号に気をつける
αβからはずれた手は学習に入れない（入れたら成駒の価値が変になった）
ボナンザは王手でも、~~王手を回避する手だけではなく、全手（不成含む）を生成して学習に使っている模様。学習サンプルを増やすためか。~~→全手を生成してから、手を指しても、自玉が王手状態ならcontinueしているようです（ご指摘ありがとうございました！）
初期値は重要
ペナルティも重要。ペナルティがなければ、学習データに対する一致率はいくらでも　良くなるが、テストデータでは逆に悪くなる（汎化能力の劣化）
ルートからの深さ2で100局ぐらいでも駒割はそれらしい値になるので、まずは、これで駒割が変にならないかをチェックした方がよい。

2chkifuを学習していて途中でassertで止まったので、見てみると２歩を打っていた局があった。