摘要: 好奇我是谁? 那么: ... (这个人好像害怕透露什么。) 阅读全文
posted @ 2023-09-28 23:27 ysngki 阅读(23) 评论(0) 推荐(0) 编辑
摘要: 碎碎念 先前留学的原因,报班学习了一段时间的德语语法。下面的笔记是当时梳理的,尝试用最合理的方式串联起德语的知识点。不过嘛,目前看来,应该不会继续学习德语了。但谁说的准呢,所以发在这里,以作备忘。 引言 对于一个语言来说,最重要的三个要素是:“主谓宾”。比如,一个简单的中文句子就是“名词+动词+名词 阅读全文
posted @ 2024-06-16 19:49 ysngki 阅读(47) 评论(0) 推荐(0) 编辑
摘要: 前情提要: 前阵子,或许更早之前,笔者关于 MoE 的一些研究——如果称得上是研究,而非民科的话——让人不禁思考 Transformer 的知识到底存在哪里?这个问题的价值不言而喻,用来打发时间也是个不错的选择。 可惜的是,目前我关于它的思考仍旧十分细碎,或许也称不上有什么新意,这里只是做下暂且的梳 阅读全文
posted @ 2024-06-11 14:41 ysngki 阅读(69) 评论(0) 推荐(0) 编辑
摘要: 用accelerate config 生成和 deepspeed相关的参数。 然后参数文件在/home/yuanhang/.cache/huggingface/accelerate/default_config.yaml, 会被自动使用。 用下面这个命令杀掉 wandb 的余孽: ps aux | 阅读全文
posted @ 2024-03-20 17:09 ysngki 阅读(65) 评论(0) 推荐(0) 编辑
摘要: 一、基本 (教学来自视频:https://search.bilibili.com/all?vt=42220558&keyword=日麻 点数&from_source=webtop_search&spm_id_from=333.976&search_source=5) 点数由番数和符数共同决定。 在明 阅读全文
posted @ 2024-01-06 20:30 ysngki 阅读(1547) 评论(0) 推荐(0) 编辑
摘要: 最新编辑于:2024年8月30日 一、摘要 fairseq 是个常用的机器翻译项目。它的优化很好,但代码晦涩难懂,限制了我们的使用。 本文旨在梳理如下流程:1)准备 WMT23 的数据 (其余生成任务皆可类比),2)训练模型,3)用 sacrebleu、COMET-22 评测模型。 不想要 wmt 阅读全文
posted @ 2023-11-07 00:35 ysngki 阅读(1214) 评论(0) 推荐(1) 编辑
摘要: 背景 在国内写代码的,总绕不开代理。或者要给 Linux 服务器开启代理,或者要给 windows 电脑的终端开启代理。 本文主要涉及以下两个任务: 在 windows 电脑上,在本地开启代理软件后,比如 Clash,在 Powershell 中开启代理。 在 Linux 服务器上,用 Clash 阅读全文
posted @ 2023-10-14 16:44 ysngki 阅读(8) 评论(0) 推荐(0) 编辑
摘要: 最新编辑于:2023年11月19日15:20:30 摘要 这个年代了谁还用apex啊!Pytorch自带的不好用吗?说的就是你,Megatron! 要解决这个问题,我们需要安装和Pytorch版本一致的cuda。然后再安装apex。 先简单说下步骤: 下载cuda的安装程序,然后安装在无需root权 阅读全文
posted @ 2023-09-28 18:20 ysngki 阅读(939) 评论(0) 推荐(0) 编辑
摘要: 背景 当我们使用pytroch的进行混合精度时,会使用scaler,来进行梯度浮点数类型的缩放。在这种情况下optimizer.step()会被scaler.step(optimizer)取代。 已知,如果梯度存在无穷值的时候,scaler会跳过这一轮次的参数更新。 又知,在参数没有更新时执行sch 阅读全文
posted @ 2023-04-02 15:26 ysngki 阅读(72) 评论(0) 推荐(0) 编辑
摘要: 使用场景 大家或许会使用vscode连接远程服务器,或许会遇到服务器无法连接外网,从而无法安装vscode常用插件。 如果满足条件,本教学将会帮你解决这个问题。 方法 总共分为三步,首先下载插件文件(VSIX格式),然后上传插件文件到服务器,最后安装插件。 一、下载插件 下图是一个插件页面,点击右侧 阅读全文
posted @ 2023-01-11 22:49 ysngki 阅读(583) 评论(0) 推荐(0) 编辑