2024年10月17日
摘要: 前言 windows系统自动更新,会把显卡驱动升级,导致和现有的pytorch环境不兼容,下面是解决方法: 解决方法 打开设备管理器,找到 显示适配器 右键显卡设备->属性->驱动程序->回退驱动程序->确认,然后重启机器即可 下图是回退后的驱动版本和CUDA版本: 阅读全文
posted @ 2024-10-17 10:17 南风丶丶 阅读(140) 评论(0) 推荐(0) 编辑
  2024年10月2日
摘要: 前言 随着LLM的推广普及,越来越多的朋友们熟悉了模型的SFT微调流程,但是对于微调的结果,尤其是如何判断各大模型在当前数据集上的表现,仍然是一个待解决的问题。并且,对选择式、判别式、生成式等不同的生成任务,如何才能够客观地评价模型的生成质量,仍是一个需要明确的问题。 1.Evaluation包含哪 阅读全文
posted @ 2024-10-02 02:25 南风丶丶 阅读(13) 评论(0) 推荐(0) 编辑
  2024年9月27日
摘要: 前言 训练一个大模型是一件高投入低回报的事情,况且训练的事情是由大的巨头公司来做的事情;通常我们是在已有的大模型基础之上做微调或Agent等;大模型的能力是毋庸置疑的,但大模型在一些实时的问题上,或是某些专有领域的问题上,可能会显得有些力不从心。因此,我们需要一些工具来为大模型赋能,给大模型一个抓手 阅读全文
posted @ 2024-09-27 23:46 南风丶丶 阅读(384) 评论(0) 推荐(0) 编辑
  2024年9月23日
摘要: 前言 从零开始训练 tiny-llama。Llama3 相较于 llama2 在 model 层面上主要区别是全模型使用 GQA,在分词阶段使用的与 GPT 一致的 tiktoken。 源码地址:https://github.com/lixinjie97/tiny-universe/blob/mai 阅读全文
posted @ 2024-09-23 22:43 南风丶丶 阅读(69) 评论(0) 推荐(0) 编辑
摘要: 前言 主要进行Qwen模型架构讲解。 教程地址:https://github.com/lixinjie97/tiny-universe/blob/main/01.Qwen_blog/qwen.ipynb 1.Qwen整体介绍 Qwen的整体架构与Llama2类似,如下图所示: tokenizer将文 阅读全文
posted @ 2024-09-23 00:04 南风丶丶 阅读(136) 评论(0) 推荐(0) 编辑
  2024年6月12日
摘要: 前言 作为深度学习的开山之作AlexNet,确实给后来的研究者们很大的启发,使用神经网络来做具体的任务,如分类任务、回归(预测)任务等,尽管AlexNet在今天看来已经有很多神经网络超越了它,但是它依然是重要的。AlexNet的作者Alex Krizhevsky首次在两块GTX 580 GPU上做神 阅读全文
posted @ 2024-06-12 00:06 南风丶丶 阅读(371) 评论(1) 推荐(1) 编辑
  2024年3月24日
摘要: 前言 多人协作开发的时候,需要对项目代码做版本管理。大家做新版本的开发,需要基于上一个版本新建一个自己的开发分支,自己开发分支的程序测试通过后,就要合到线上的分支以供发版,在合并分支的时候可能会有冲突,那么需要解决冲突后提交合并的代码。本篇教程主要讲解使用git merge来进行分支合并,git r 阅读全文
posted @ 2024-03-24 18:02 南风丶丶 阅读(347) 评论(2) 推荐(2) 编辑
  2024年1月31日
摘要: 前言 2023年是我工作的第一年,到现在工作也有半年了,在工作的过程中有很多感悟,其中有关于技术的,也有关于为人处世的。首先是技术方面,工作半年也在不断地积攒经验,自己在团队协作中也有了一定的进步,知道了如何与人共同工作,技术提升上,做工程的经验也有了一定的进步,像git工具、docker也用的越来 阅读全文
posted @ 2024-01-31 22:00 南风丶丶 阅读(638) 评论(2) 推荐(7) 编辑
  2024年1月29日
摘要: git是什么 在日常的开发中,git命令用的非常多,在学git命令之前,首先讲一下远端仓库和本地仓库的区别:远端仓库是一个在远端大家进行协作开发的仓库;本地仓库是自己本地的仓库,在本地开发调试完程序后,需要把程序推到远端的公共仓库。简单来说git的一系列命令就是用来操作仓库的指令,下面介绍一下,gi 阅读全文
posted @ 2024-01-29 21:53 南风丶丶 阅读(37) 评论(0) 推荐(0) 编辑
  2024年1月19日
摘要: 大概从本科毕业,自己写博客就越来越少了,最近觉得要把自己的博客用起来,把自己学会的一些技术和见解分享出来,开源是一件很有意义的事情,自己每天遇到难题也是会在各大开源社区找解决方案,那么,我也想参与进来,为开源社区贡献微薄之力。 自己是在某互联网企业做软件开发工程师,工作内容为AI方向的开发,在日常的 阅读全文
posted @ 2024-01-19 21:23 南风丶丶 阅读(36) 评论(0) 推荐(0) 编辑