2025 年 2月 14 日随笔档案 - parkdifferent

2025年2月14日

DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning，论文解读

摘要： DeepSeek-R1 论文，题为 "DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning"，是近期发布的一篇关于大型语言模型（LLMs）推理能力提升的论文。该论文提出了两种模型 Deep 阅读全文

posted @ 2025-02-14 17:05 parkdifferent 阅读(54) 评论(0) 推荐(0) 编辑

Deep Dive into LLMs like ChatGPT, Andrej Karpathy

摘要：当然可以！Andrej Karpathy 的 "Deep Dive into LLMs like ChatGPT" 视频深入浅出地讲解了大型语言模型（LLMs）如 ChatGPT 的核心概念和技术。这是一个非常棒的视频，信息量巨大，我来帮你总结提炼一下视频的主要内容：视频核心观点：LLMs 是“ 阅读全文

posted @ 2025-02-14 15:39 parkdifferent 阅读(47) 评论(0) 推荐(0) 编辑

GPT Assistant training pipeline

摘要：当然！这张图片清晰地展示了 GPT Assistant (如 ChatGPT, Claude 等) 的训练流程，我们来深入理解一下其中的知识点： 1. 训练阶段 (Training Stages) 预训练 (Pretraining): 数据集: 使用从互联网上收集的大量原始文本数据 (数万亿字)，包阅读全文

posted @ 2025-02-14 11:47 parkdifferent 阅读(22) 评论(0) 推荐(0) 编辑