摘要: 任务一: Leetcode 383 class Solution: def canConstruct(self, ransomNote: str, magazine: str) -> bool: cnt = Counter(magazine) for c in ransomNote: cnt[c] 阅读全文
posted @ 2024-10-31 11:49 sunshine丶23 阅读(1) 评论(0) 推荐(0) 编辑
摘要: 该代码结构如下图所示: 在initialize_megatron初始化megatron的过程中,有关于数据并行、流水线并行、张量并行的实现,简介及其实现如下: 模型分布式环境初始化: 以两台分别有8个GPU服务器为例,训练具有12层的transformer layers, 图一 图二 本示例将模型纵 阅读全文
posted @ 2024-01-19 17:46 sunshine丶23 阅读(66) 评论(0) 推荐(0) 编辑
摘要: W: Failed to fetch http://archive.ubuntu.com/ubuntu/dists/jammy/InRelease Temporary failure resolving 'archive.ubuntu.com' W: Failed to fetch http://a 阅读全文
posted @ 2024-01-09 14:22 sunshine丶23 阅读(94) 评论(0) 推荐(0) 编辑
摘要: 前置环境:两台可以互通的centos服务器(服务器1、服务器2),docker,NVIDIA驱动 一、docker创建overlay共享网络 1)选用服务器1作为manage节点进行初始化,执行docker swarm init Swarm initialized: current node (ly 阅读全文
posted @ 2024-01-08 14:39 sunshine丶23 阅读(1933) 评论(0) 推荐(0) 编辑
摘要: 最近看到一篇推文是在不量化、不损失精度的情况下使用一张16G的显卡推理70B的大模型。方案来自于kaggle的一个方案,具体流程为: 1.创建一个空的(例如,没有权重的)模型 2.决定每一层将要去哪里(当有多个设备可用时) 3.在内存中加载其权重的一部分 4.在空模型中加载这些权重 5.将权重移动到 阅读全文
posted @ 2023-10-19 14:20 sunshine丶23 阅读(402) 评论(0) 推荐(0) 编辑
摘要: Sentencepiece是google开源的文本Tokenzier工具,其主要原理是利用统计算法,在语料库中生成一个类似分词器的工具,外加可以将词token化的功能;对比开源的分词器,它会将频繁出现的字符串作为词,然后形成词库进行切分,所以它会切分的粒度会更大些。当前各个大模型的分词器基本都是基于 阅读全文
posted @ 2023-09-25 09:54 sunshine丶23 阅读(856) 评论(0) 推荐(0) 编辑
摘要: 难点:由于langchain采用的是硬切分文档的方式,导致文档分割不够准确,例如:在文档中若有分点描述的情况,对文档硬性分割后,会把各个重点分隔开,导致后续向量召回时,片段是残缺的。如: 如果硬性分割文档,则在召回阶段拿不到所有的通知信息。 解决方案:考虑使用语义分析的方式来分割文档,BERT模型训 阅读全文
posted @ 2023-09-23 15:22 sunshine丶23 阅读(538) 评论(1) 推荐(0) 编辑
摘要: 使用dataset = datasets.load_dataset("beyond/rlhf-reward-single-round-trans_chinese")下载数据集会报错: FileNotFoundError: [Errno 2] No such file or directory: 'C 阅读全文
posted @ 2023-08-10 17:45 sunshine丶23 阅读(527) 评论(0) 推荐(0) 编辑
摘要: 之前项目有聚类的一些需求,现大致对一些聚类算法总结下: 聚类是对一系列事物根据其潜在特征按照某种度量函数归纳成一个个簇的动作,使得簇内数据间的相似度尽可能大,不同簇的数据相似度尽可能小。 通常聚类流程如下:数据获取-数据预处理-模型选型-模型聚类调参-输出结果。其中数据预处理、模型选型是流程中较为重 阅读全文
posted @ 2023-01-10 15:22 sunshine丶23 阅读(488) 评论(0) 推荐(0) 编辑
摘要: 问题:BERT的表示本身存在塌缩的问题。通过对BERT词表示的观察,会发现整体呈锥形分布:高频词聚集在锥头部,低频词分散在锥尾。又由于高频词本身是高频的,因此会主要贡献整个的句子表示,让整体的相似度都很高。 解决思路: 对比学习,它是通过拉近相同样本的距离、拉远不同样本的距离,来刻画样本本身的表示, 阅读全文
posted @ 2022-11-21 16:01 sunshine丶23 阅读(418) 评论(0) 推荐(0) 编辑