simk_1000_p

1000局で学習したバージョンをfloodgateに投入しています。
3駒関係+玉の周囲の駒特徴を入れています。学習した駒割は以下。

96
286
278
385
496
569
692
464
成香 520
成桂 483
成銀 484
748
899

そんなに変な値にはなっていないので多分うまくいっていると思う。
以下、メモ。

  • 最善手のPVは固定長ではないので評価値の符号に気をつける
  • αβからはずれた手は学習に入れない(入れたら成駒の価値が変になった)
  • ボナンザは王手でも、王手を回避する手だけではなく、全手(不成含む) を生成して学習に使っている模様。学習サンプルを増やすためか。→全手を生成してから、手を指しても、自玉が王手状態ならcontinueしているようです(ご指摘ありがとうございました!)
  • 初期値は重要
  • ペナルティも重要。ペナルティがなければ、学習データに対する一致率はいくらでも 良くなるが、テストデータでは逆に悪くなる(汎化能力の劣化)
  • ルートからの深さ2で100局ぐらいでも駒割はそれらしい値になるので、 まずは、これで駒割が変にならないかをチェックした方がよい。

2chkifuを学習していて途中でassertで止まったので、見てみると2歩を打っていた局があった。