2.大模型调研——编程初学者记03-02

一、概念
大模型通常指大型程序学习模型，特指深度学习模型。
二、特点
大模型其中会包含大量的参数，需要收纳大量的数据去训练。同时由于它的规模的庞大、数据之多，对硬件也有要求，往往需要高性能的硬件设施，帮助处理复杂的任务。
三、应用领域
当下互联网、人工智能迅速发展，大模型也展现出巨大的潜力所以在大模型应用领域方面：
1.自然语音处理领域：有文本处理、语言翻译、对话分析等方面，例如文心一言的文本处理，AI翻译，豆包的对话分析等
2.计算机视觉领域：有图像的采集与分析、目标定位、视频行为分析等，应用于交通监控等领域
3.数据分析与预测领域：分析动物或人的身体状态，协助医生处理数据；在工业生产中检测产品缺陷；在教育领域提供个性化的教育方案建议等
四、现状方面
在当前情势下，互联网、人工智能迅速发展，大模型的应用也越来越广泛，在各个领域都展现出巨大的潜力。在数据处理的展现出全面性与效率性。
五、挑战方面
算力成本高，可能会因数据差异产生数据混乱，以及人性底线与法律争议等风险，需要更多的道德与法治的约束，让大模型专注于服务人类。

因此，我查了chatGPT这个大模型的相关信息
【ChatGPT解析：构建逻辑、运行技巧与应用指南】
一、大模型的产生与构建流程

数据准备与处理：大模型需要收集海量多源数据去训练，如文本(网页、书籍)、图像、视频等。例如，GPT-3的训练数据量达45TB,覆盖互联网公开文本、学术论文等
模型架构设计：采用Transformer架构(如GPT 系列、BERT)，参数量约1750亿，其自注意力机制能高效捕捉长距离依赖关系，适用于文本和图像任务。
三阶段训练：
（1）预训练：学习互联网海量文本的统计规律（45TB数据）。
（2）监督微调：标注人员编写高质量问答对，调整模型输出风格。
（3）强化学习：通过人类对回答的排序反馈，优化生成策略。
4．安全护栏：
（1）内容过滤：拒绝生成暴力、歧视性内容
（2）知识截止：设定2023年10月为知识边界，避免虚构未来事件
二、运行技巧与优化策略
1.系统级优化
（1）使用GPU集群（如Azure的NDm A100 v4系列）实现低延迟响应。
（2）通过模型并行将计算负载拆分到多张显卡。
（3）成本控制：量化压缩（将FP32参数转为INT8，推理速度提升3倍）
三、ChatGPT的高效使用技巧
（一）结构化指令：
模板："你是一位经验丰富的Python工程师，请完成以下任务：
解释快速排序的原理（不超过200字）
给出时间复杂度分析
编写带测试用例的Python代码"
（二）少样本学习
提供示例引导模型风格：
输入："模仿鲁迅风格写三句关于AI的讽刺短文。
（三）垂直领域适配
知识库增强：