上の行列積と掃き出し法を実装して通した。
掃き出し法の計算量をちゃんと考えたことがなかったけど、行列についてってことでいいんだろうか。
64倍高速化
64倍高速化した掃き出し法をの正則行列に適用すると800msくらいで、行列積は同サイズで2200msくらいだった。この辺を限界として覚えておく。SSE使うともう少しいけるのかな。
「ワード長w>=lg(データサイズn)」という仮定、なるほどなあという感じ
— 自朗 (@risujiroh) April 17, 2019
この立場だと例えばstd::bitsetを用いたbit並列化は1/64の定数倍高速化ではなく1/(lg n)のオーダー改善ということになる
いわゆるbitset高速化がの改善という見解を見つけて、なるほどとなった。→ というかword-RAMモデルだとそうなるのか。