摘要: Post Pretraing 技术解析 一、问题描述 在大模型训练中,后预训练技术(Post-pretraining)通常指的是在模型的初始预训练阶段和最终的微调阶段之间进行的一个额外训练步骤。这个步骤的目的是进一步调整模型,使其能够更好地适应特定领域或任务,同时保持或增强其从大规模预训练数据中学到的通用知识和特征表示。 1.1 主要特点 阅读全文
posted @ 2024-09-19 17:15 Aurelius84 阅读(359) 评论(0) 推荐(0) 编辑
摘要: 研发工程师的「第一性原理」思维 回顾复盘五年来的研发经历,愈发认同身边同事强调的“第一性原理”思维,仅做浅浅记录和分享 一、定义与理论介绍 第一性原理(First Principles),又称基本原理,是指从最基本的假设和定义出发,通过逻辑推理和演绎得出结论的一种思维方法。它强调对事物的本质和根源进行深入的理解,不受已有的经验、知 阅读全文
posted @ 2024-09-19 16:57 Aurelius84 阅读(113) 评论(0) 推荐(0) 编辑
摘要: Meta Llama3 论文研读 一、 引言概述(Intro & Overview) Llama3是一系列基于Transformer结构的大型多语言模型,通过优化数据质量、训练规模和模型架构,旨在提升模型在各种语言理解任务中的表现。 通过引入更优质的数据和更高效的训练方法,Llama3展示了在自然语言处理领域的巨大潜力。其创新点在于 阅读全文
posted @ 2024-09-19 16:44 Aurelius84 阅读(466) 评论(0) 推荐(0) 编辑