双-单-半精度浮点数的细节
浮点数也就是小数点浮动的数,但是因为在计算机中使二进制表示,不同长度有不同的精度。三种常用的浮点数的格式:半精度(float16)、单精度(float32)、双精度(float64)
- Value=sign*exponent*fraction
- 数值=符号位*指数位*小数位
- 符号位表示正负
- 指数位表示次方
- 小数位表示精度
区别在于指数位和小数位的长度的差异;这样近似值其实也就是有理数的表示方法;
半精度表示π,最大值和最小值:




单精度表示π,最大值和最小值:





双精度表示π,最大值和最小值:





Bfloat16
最近还诞生了一种Bfloat16的计数方式,使用和半精度相同的位数,实现了保持和单精度一样的指数位也就是8位指数位,可以表示和单精度相同的数字范围,但是牺牲了小数位也就是精度。



参考文献:
<wiz_tmp_tag id="wiz-table-range-border" contenteditable="false" style="display: none;">
万事走心 精益求美
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步