摘要: 上篇: 从零开始的 LLM: nanoGPT 学习笔记(1/2) 尝试了完整的训练的过程,nanoGPT 仓库中还有复现 GPT2 的代码,可惜对计算资源要求太高(基于 OpenWebText 数据集,8 卡 A100,训练 4 天),不是个人电脑玩的转了,只能跳过这一步,尝试后面的 finetun 阅读全文
posted @ 2024-11-17 12:16 zion03 阅读(1) 评论(0) 推荐(0) 编辑
摘要: 项目地址:nanoGPT 作者是 OpenAI 的元老人物 Andrej Karpathy,以非常通俗易懂的方式将 LLM 的 pre-train 娓娓道来,YouTube 上也有对应的视频:Let's build GPT: from scratch, in code, spelled out. 其 阅读全文
posted @ 2024-11-16 23:23 zion03 阅读(4) 评论(0) 推荐(0) 编辑
摘要: 1. AI pair programming in terminal aider GitHub 可自由配置任意的 LLM 接口 功能: 接收需求: Add new features or test cases. Describe a bug. Paste in an error message or 阅读全文
posted @ 2024-11-13 22:27 zion03 阅读(5) 评论(0) 推荐(0) 编辑
摘要: CRUXEval (Code Reasoning, Understanding, and eXecution Evaluation) 是一个在 HumanEval 上进行改进的 benchmark。由 800 个 Python function 组成。 paper:CRUXEval: A Bench 阅读全文
posted @ 2024-11-13 18:45 zion03 阅读(5) 评论(0) 推荐(0) 编辑
摘要: SWE-bench 数据集从 12 个流行的 Python 仓库中,收集了 2294 组 [Issue, PR] 对。相比之前的各个 benchmark,要么数据泄露要么训练阶段作弊,已经没办法很好辨别顶尖模型的优劣,SWE-bench 更能反应出语言模型在真实世界的应用。 paper:SWE-be 阅读全文
posted @ 2024-11-12 15:20 zion03 阅读(16) 评论(0) 推荐(0) 编辑
摘要: Qwen2.5-Coder 是通义千问最新的代码语言模型,基于 Qwen2.5 的架构继续 pretrain 了 5.5T 的 token。通过细致的数据清洗、可扩展的合成数据生成和平衡的数据混合,Qwen2.5-Coder在展示令人印象深刻的代码生成能力的同时,还保留了通用的多功能性。本文根据官方 阅读全文
posted @ 2024-11-11 11:24 zion03 阅读(70) 评论(0) 推荐(0) 编辑
摘要: 论文地址:Evaluating Large Language Models Trained on Code 本文尝试从代码层面分析一下这个数据集是如何衡量从文档生成代码的功能正确性。 安装 conda create -n human-eval python=3.7 conda activate hu 阅读全文
posted @ 2024-11-01 21:01 zion03 阅读(34) 评论(0) 推荐(0) 编辑
摘要: 某仿真软件现状 新建仿真项目后,工程中的模型只能依靠编辑其自带的脚本语言来进行增删改,业务人员的学习成本极高。网上的资料也很少,Github 上都只能找到一个该软件的项目代码。文档也基本只有该软件自带的文档,社区基本没有,好在文档写的比较详实。 目前打算去尝试的解决方案 基于 Code Llama/ 阅读全文
posted @ 2024-11-01 10:55 zion03 阅读(3) 评论(0) 推荐(0) 编辑
摘要: 由于采用了前后端分离的技术方案,导致我的博客完全没有了 SEO(虽然也没啥阅读量 O_o),但还是想要从这个点切入折腾优化一下。 前端是基于 React 技术栈的,那么最热门的 SSR 框架肯定是 next.js 了。初步刷了一下文档,由于之前没有考虑过 SSR,现在迁移到 next.js 需要对代 阅读全文
posted @ 2021-08-16 23:08 zion03 阅读(201) 评论(0) 推荐(0) 编辑
摘要: 语法分析 (Syntactic Analysis / Parsing) 识别程序语法结构,构造抽象语法树(Abstract Syntax Tree) 1. 自顶向下 递归下降算法(Recursive Descent Parsing) 下降:语法分析的过程中,上级文法嵌套下级文法。 递归:上下文无关文 阅读全文
posted @ 2021-06-20 21:54 zion03 阅读(56) 评论(0) 推荐(0) 编辑