int、int16、int32、int64、float、float16、float32、float64

在做模型量化的时候，经常遇到这几个类精度表示，做下记录：

注：

bits：位数

bytes：字节 1bytes = 8 bits

单精度用小数用23位存储，加上默认的小数点前的1为1，2^(23+1) = 16777216.

因为10^7<16777216<10^8,所以说单精度浮点数的有效位数是7位。

双精度的小数位数是52位存储，2^(52+1) = 9007199254740992.

因为10^16<9007199254740992<10^17，所以双精度的有效位数是16位。

posted @ 2020-07-06 17:02 我们都是大好青年阅读(12680) 评论(0) 编辑收藏举报

刷新页面返回顶部

我们都是大好青年