結果

128次元ベクトル×10000個の辞書データがあって、
65536個のベクトル(クエリー)の検索で、
CPU:9603msec
GPU:1379msec


大体、6〜7倍程度。CPUは3GHzの1コアの結果なので
6コア使うとあまり変わらないのかもしれない。
GPUももっといいものを使えば速くなるかも。
384コアもあるので100倍くらい速くなると思ったけど
そうでもなかった。ちょっと残念。
FFTも比較したけど良くて5倍程度ですね。


CUDAで多次元ベクトルの近似近傍探索は、色々調べた限りでは
コードがなかったので公開した方がいいのかな?