09 2024 档案

摘要:Post Pretraing 技术解析一、问题描述 在大模型训练中,后预训练技术(Post-pretraining)通常指的是在模型的初始预训练阶段和最终的微调阶段之间进行的一个额外训练步骤。这个步骤的目的是进一步调整模型,使其能够更好地适应特定领域或任务,同时保持或增强其从大规模预训练数据中学到的通用知识和特征表示。 1.1 主要特点 阅读全文
posted @ 2024-09-19 17:15 Aurelius84 阅读(1256) 评论(0) 推荐(0)
摘要:研发工程师的「第一性原理」思维回顾复盘五年来的研发经历,愈发认同身边同事强调的“第一性原理”思维,仅做浅浅记录和分享 一、定义与理论介绍 第一性原理(First Principles),又称基本原理,是指从最基本的假设和定义出发,通过逻辑推理和演绎得出结论的一种思维方法。它强调对事物的本质和根源进行深入的理解,不受已有的经验、知 阅读全文
posted @ 2024-09-19 16:57 Aurelius84 阅读(671) 评论(0) 推荐(0)
摘要:Meta Llama3 论文研读一、 引言概述(Intro & Overview) Llama3是一系列基于Transformer结构的大型多语言模型,通过优化数据质量、训练规模和模型架构,旨在提升模型在各种语言理解任务中的表现。 通过引入更优质的数据和更高效的训练方法,Llama3展示了在自然语言处理领域的巨大潜力。其创新点在于 阅读全文
posted @ 2024-09-19 16:44 Aurelius84 阅读(1105) 评论(0) 推荐(0)
摘要:《抽象代数》系列之群论入门一、重要性 1.1 领域意义 群论是数学的一个分支,主要研究代数结构中的群、环、域等。尽管它看似抽象,但在编程领域,群论有着广泛的应用和深刻的意义。 算法设计与优化:群论在算法设计中发挥着重要作用。例如,在密码学中,群论被用于设计安全的加密算法,如椭圆曲线密码学,它依赖于椭圆曲线上的群结构;在图论和 阅读全文
posted @ 2024-09-13 15:43 Aurelius84 阅读(853) 评论(0) 推荐(0)
摘要:训练框架技术序列一:Megtron-LLM架构源码本文章涉及的Megatron-llm的XMind思维导图源文件和PDF文件,可在网盘下载: https://pan.baidu.com/s/1xRZD-IP95y7-4Fn0C_VJMg 提取码: qxff 一、引言 Megatron-Core 是一个基于 PyTorch 的开源库,专为在 NVID 阅读全文
posted @ 2024-09-09 12:32 Aurelius84 阅读(1561) 评论(1) 推荐(0)

点击右上角即可分享
微信分享提示