随笔分类 - NLP
摘要:该代码结构如下图所示: 在initialize_megatron初始化megatron的过程中,有关于数据并行、流水线并行、张量并行的实现,简介及其实现如下: 模型分布式环境初始化: 以两台分别有8个GPU服务器为例,训练具有12层的transformer layers, 图一 图二 本示例将模型纵
阅读全文
摘要:前置环境:两台可以互通的centos服务器(服务器1、服务器2),docker,NVIDIA驱动 一、docker创建overlay共享网络 1)选用服务器1作为manage节点进行初始化,执行docker swarm init Swarm initialized: current node (ly
阅读全文
摘要:最近看到一篇推文是在不量化、不损失精度的情况下使用一张16G的显卡推理70B的大模型。方案来自于kaggle的一个方案,具体流程为: 1.创建一个空的(例如,没有权重的)模型 2.决定每一层将要去哪里(当有多个设备可用时) 3.在内存中加载其权重的一部分 4.在空模型中加载这些权重 5.将权重移动到
阅读全文
摘要:Sentencepiece是google开源的文本Tokenzier工具,其主要原理是利用统计算法,在语料库中生成一个类似分词器的工具,外加可以将词token化的功能;对比开源的分词器,它会将频繁出现的字符串作为词,然后形成词库进行切分,所以它会切分的粒度会更大些。当前各个大模型的分词器基本都是基于
阅读全文
摘要:难点:由于langchain采用的是硬切分文档的方式,导致文档分割不够准确,例如:在文档中若有分点描述的情况,对文档硬性分割后,会把各个重点分隔开,导致后续向量召回时,片段是残缺的。如: 如果硬性分割文档,则在召回阶段拿不到所有的通知信息。 解决方案:考虑使用语义分析的方式来分割文档,BERT模型训
阅读全文
摘要:使用dataset = datasets.load_dataset("beyond/rlhf-reward-single-round-trans_chinese")下载数据集会报错: FileNotFoundError: [Errno 2] No such file or directory: 'C
阅读全文
摘要:问题:BERT的表示本身存在塌缩的问题。通过对BERT词表示的观察,会发现整体呈锥形分布:高频词聚集在锥头部,低频词分散在锥尾。又由于高频词本身是高频的,因此会主要贡献整个的句子表示,让整体的相似度都很高。 解决思路: 对比学习,它是通过拉近相同样本的距离、拉远不同样本的距离,来刻画样本本身的表示,
阅读全文
摘要:文本相似度任务: 最近接到文本结构化的任务,经过一番实验发现,可将该任务转化为计算标题检索排序任务,可用文本相似度的方法来做。文本相似度计算可直接根据文本本身计算距离来得到或使用模型将语义向量化后再计算距离得到。 一、根据文本本身计算相似度: 1)余弦相似度 import numpy as np f
阅读全文