摘要:
经常使用各种在线的、本地部署的 LLM API ,有个参数 temperature 基本都会被忽略,要么随手设置为 0.8(嗯,应该大部分人都是这么设置的吧...),要么直接用默认值。这个参数的基本功能也很明确: A lower LLM temperature value (close to 0) 阅读全文
摘要:
由于要解决一些业务问题,需要将领域知识喂给大模型。之前只做过简单的 finetuning(在 GLM 的框架上跑了一些 lora,数据量也不大),但是现在要将整个细分工业领域的相关数据都收集起来训练,规模上比之前半手动构造的微调数据集要大了很多,调研了一圈,更适合在 pre-train 阶段去做训练 阅读全文
摘要:
以 Qwen2.5-0.5B 模型为例,看一下具体都有哪些文件。 首先将 Hugging Face 上的模型拉下来 git clone https://huggingface.co/Qwen/Qwen2.5-0.5B,如果模型太大的话,可以执行 git clone https://huggingfa 阅读全文
摘要:
上篇: 从零开始的 LLM: nanoGPT 学习笔记(1/2) 尝试了完整的训练的过程,nanoGPT 仓库中还有复现 GPT2 的代码,可惜对计算资源要求太高(基于 OpenWebText 数据集,8 卡 A100,训练 4 天),不是个人电脑玩的转了,只能跳过这一步,尝试后面的 finetun 阅读全文
摘要:
项目地址:nanoGPT 作者是 OpenAI 的元老人物 Andrej Karpathy,以非常通俗易懂的方式将 LLM 的 pre-train 娓娓道来,YouTube 上也有对应的视频:Let's build GPT: from scratch, in code, spelled out. 其 阅读全文
摘要:
1. AI pair programming in terminal aider GitHub 可自由配置任意的 LLM 接口 功能: 接收需求: Add new features or test cases. Describe a bug. Paste in an error message or 阅读全文
摘要:
CRUXEval (Code Reasoning, Understanding, and eXecution Evaluation) 是一个在 HumanEval 上进行改进的 benchmark。由 800 个 Python function 组成。 paper:CRUXEval: A Bench 阅读全文
摘要:
SWE-bench 数据集从 12 个流行的 Python 仓库中,收集了 2294 组 [Issue, PR] 对。相比之前的各个 benchmark,要么数据泄露要么训练阶段作弊,已经没办法很好辨别顶尖模型的优劣,SWE-bench 更能反应出语言模型在真实世界的应用。 paper:SWE-be 阅读全文
摘要:
Qwen2.5-Coder 是通义千问最新的代码语言模型,基于 Qwen2.5 的架构继续 pretrain 了 5.5T 的 token。通过细致的数据清洗、可扩展的合成数据生成和平衡的数据混合,Qwen2.5-Coder在展示令人印象深刻的代码生成能力的同时,还保留了通用的多功能性。本文根据官方 阅读全文
摘要:
论文地址:Evaluating Large Language Models Trained on Code 本文尝试从代码层面分析一下这个数据集是如何衡量从文档生成代码的功能正确性。 安装 conda create -n human-eval python=3.7 conda activate hu 阅读全文