2023 年 10月 5 日随笔档案 - 扫地升

2023年10月5日

摘要：主要整理了N多年前（2010年）学习C++的时候开始总结的知识点，好长时间不写C++代码了，现在LLM量化和推理需要重新学习C++编程，看来出来混迟早要还的。 1.const_cast <new_type> (expression)[1] 解析：const_cast转换符用来移除变量的const或v 阅读全文

posted @ 2023-10-05 01:29 扫地升阅读(123) 评论(0) 推荐(0) 编辑

Boost程序库完全开发指南：1.1-C++基础知识点梳理

摘要：主要整理了N多年前（2010年）学习C++的时候开始总结的知识点，好长时间不写C++代码了，现在LLM量化和推理需要重新学习C++编程，看来出来混迟早要还的。 1.shared_ptr 解析：shared_ptr是一种计数指针，当引用计数变为0时，shared_ptr所指向的对象将会被删除。如下所示阅读全文

posted @ 2023-10-05 01:29 扫地升阅读(41) 评论(0) 推荐(0) 编辑

Boost程序库完全开发指南：1-开发环境和构建工具

摘要： Boost官方于2019年12月发布的1.72版编写，共包含160余个库/组件，涵盖字符串与文本处理、容器、迭代器、算法、图像处理、模板元编程、并发编程等多个领域，使用Boost，将大大增强C++的功能和表现力。环境：Windows 10，WSL2，Ubuntu 20.04 LTS，Rider（WS 阅读全文

posted @ 2023-10-05 01:28 扫地升阅读(131) 评论(0) 推荐(0) 编辑

CUDA C编程权威指南：1.3-CUDA基础知识点梳理

摘要：主要整理了N多年前（2013年）学习CUDA的时候开始总结的知识点，好长时间不写CUDA代码了，现在LLM推理需要重新学习CUDA编程，看来出来混迟早要还的。 1.CUDA数组解析：CUDA数组是使用cudaMallocArray()、cudaMalloc3DArray()分配的，使用cudaFr 阅读全文

posted @ 2023-10-05 01:28 扫地升阅读(240) 评论(0) 推荐(0) 编辑

CUDA C编程权威指南：1.2-CUDA基础知识点梳理

摘要：主要整理了N多年前（2013年）学习CUDA的时候开始总结的知识点，好长时间不写CUDA代码了，现在LLM推理需要重新学习CUDA编程，看来出来混迟早要还的。 1.闭扫描和开扫描对于一个二元运算符和一个元输入数组。如果返回输出数组为，那么是闭扫描；如果返回输出数组为，那么是开扫描。串行闭扫描算法，阅读全文

posted @ 2023-10-05 01:27 扫地升阅读(137) 评论(0) 推荐(0) 编辑

CUDA C编程权威指南：1.1-CUDA基础知识点梳理

摘要：主要整理了N多年前（2013年）学习CUDA的时候开始总结的知识点，好长时间不写CUDA代码了，现在LLM推理需要重新学习CUDA编程，看来出来混迟早要还的。 1.CUDA 解析：2007年，NVIDIA推出CUDA（Compute Unified Device Architecture，统一计算设阅读全文

posted @ 2023-10-05 01:27 扫地升阅读(396) 评论(0) 推荐(0) 编辑

CUDA C编程权威指南：1-基于CUDA的异构并行计算

摘要：什么是CUDA？CUDA（Compute Unified Device Architecture,统一计算设备架构）是NVIDIA（英伟达）提出的并行计算架构，结合了CPU和GPU的优点，主要用来处理密集型及并行计算。什么是异构计算？这里的异构主要指的是主机端的CPU和设备端的GPU，CPU更擅长逻阅读全文

posted @ 2023-10-05 01:26 扫地升阅读(159) 评论(0) 推荐(0) 编辑

Llama2-Chinese项目：8-TRL资料整理

摘要： TRL（Transformer Reinforcement Learning）是一个使用强化学习来训练Transformer语言模型和Stable Diffusion模型的Python类库工具集，听上去很抽象，但如果说主要是做SFT（Supervised Fine-tuning）、RM（Reward 阅读全文

posted @ 2023-10-05 01:26 扫地升阅读(650) 评论(0) 推荐(0) 编辑

Llama2-Chinese项目：7-外延能力LangChain集成

摘要：本文介绍了Llama2模型集成LangChain框架的具体实现，这样可更方便地基于Llama2开发文档检索、问答机器人和智能体应用等。 1.调用Llama2类针对LangChain[1]框架封装的Llama2 LLM类见examples/llama2_for_langchain.py，调用代码如下阅读全文

posted @ 2023-10-05 01:25 扫地升阅读(193) 评论(0) 推荐(0) 编辑

Llama2-Chinese项目：6-模型评测

摘要：测试问题筛选自AtomBulb[1]，共95个测试问题，包含：通用知识、语言理解、创作能力、逻辑推理、代码编程、工作技能、使用工具、人格特征八个大的类别。 1.测试中的Prompt 例如对于问题"列出5种可以改善睡眠质量的方法"，如下所示： [INST] <<SYS>>You are a helpf 阅读全文

posted @ 2023-10-05 01:25 扫地升阅读(79) 评论(0) 推荐(0) 编辑

Llama2-Chinese项目：5-推理加速

摘要：随着大模型参数规模的不断增长，在有限的算力资源下，提升模型的推理速度逐渐变为一个重要的研究方向。常用的推理加速框架包含lmdeploy、FasterTransformer和vLLM等。一.lmdeploy推理部署 lmdeploy由上海人工智能实验室开发，推理使用C++/CUDA，对外提供pyth 阅读全文

posted @ 2023-10-05 01:24 扫地升阅读(1467) 评论(0) 推荐(0) 编辑

Llama2-Chinese项目：4-量化模型

摘要：一.量化模型调用方式下面是一个调用FlagAlpha/Llama2-Chinese-13b-Chat[1]的4bit压缩版本FlagAlpha/Llama2-Chinese-13b-Chat-4bit[2]的例子： from transformers import AutoTokenizerfro 阅读全文

posted @ 2023-10-05 01:24 扫地升阅读(1212) 评论(0) 推荐(0) 编辑