07 2024 档案

摘要:详见 https://github.com/ggerganov/llama.cpp LLM部署工具llama.cpp llama.cpp 旨在使用最少的硬件资源实现在本地或云端上的最优性能的LLM推理部署,其具有以下特点 纯C/C++实现,无任何依赖项 支持x86架构的AVX、AVX2和AVX512 阅读全文
posted @ 2024-07-24 15:27 Liang-ml 阅读(843) 评论(0) 推荐(0) 编辑
摘要:常用的数据类型有FP64、FP32、FP16、BFLOAT16等,以及LLM量化用到的INT4、NF4、INT8、FP8 指数位长度提供范围,尾数位长度决定精度 TF32剩余的13位填充或未使用 FP64 FP64表示64位浮点数,通常为IEEE 754定义的双精度二进制浮点格式,由1位符号位、11 阅读全文
posted @ 2024-07-19 10:41 Liang-ml 阅读(653) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示