快速取模算法(Barrett Reduction)
原理:取模运算低效的原因本质是除法运算的低效。如果能将除法变成其它运算就可以加速。具体地,将除以任意数转化成“乘一个数、除以一个 \(2^k\) ”(取 \(2^{62}\) 即可确保 int
范围内运算较为精确)。需要使用 __int128
来进行乘法。
一般来说,模数是常数编译器会优化,速度不会太慢;如果模数不断变化,使用这个也不会加速(构造取模器本身需要除法)。所以如果模数是输入的一个固定数,适合使用该算法。
代码:
struct Mod
{
LL m, p;
void init(int pp) { m = ((__int128)1 << 64) / pp; p = pp; }
LL operator ()(LL x)
{
return x - ((__int128(x) * m) >> 64) * p;
}
} mod;
upd:变成 \(2^{64}\) 了,这样精度会更高一点,但是不能处理模数为 \(2\) 的情况。一般来说,建议在输出前进行一次普通取模来确保没有问题。
感谢UOJ群老哥教我这个。