摘要: 常用的数据类型有FP64、FP32、FP16、BFLOAT16等,以及LLM量化用到的INT4、NF4、INT8、FP8 指数位长度提供范围,尾数位长度决定精度 TF32剩余的13位填充或未使用 FP64 FP64表示64位浮点数,通常为IEEE 754定义的双精度二进制浮点格式,由1位符号位、11 阅读全文
posted @ 2024-07-19 10:41 Liang-ml 阅读(8) 评论(0) 推荐(0) 编辑