扫地升 - 博客园

2023年9月11日

摘要： Atom-7B与Llama2间的关系：Atom-7B是基于Llama2进行中文预训练的开源大模型。为什么叫原子呢？因为原子生万物，Llama中文社区希望原子大模型未来可以成为构建AI世界的基础单位。目前社区发布了6个模型，如下所示： FlagAlpha/Atom-7BFlagAlpha/Llama2 阅读全文

posted @ 2023-09-11 19:52 扫地升阅读(1164) 评论(0) 推荐(1) 编辑

2023年9月3日

使用自动模型

摘要：本文通过文本分类任务演示了HuggingFace自动模型使用方法，既不需要手动计算loss，也不需要手动定义下游任务模型，通过阅读自动模型实现源码，提高NLP建模能力。一.任务和数据集介绍 1.任务介绍前面章节通过手动方式定义下游任务模型，HuggingFace也提供了一些常见的预定义下游任务模阅读全文

posted @ 2023-09-03 22:31 扫地升阅读(341) 评论(0) 推荐(0) 编辑

中文命名实体识别

摘要：本文通过people_daily_ner数据集，介绍两段式训练过程，第一阶段是训练下游任务模型，第二阶段是联合训练下游任务模型和预训练模型，来实现中文命名实体识别任务。一.任务和数据集介绍 1.命名实体识别任务 NER（Named Entity Recognition）和Pos（Part-of-S 阅读全文

posted @ 2023-09-03 12:33 扫地升阅读(535) 评论(0) 推荐(0) 编辑

2023年9月1日

基于Llama2模型的开源模型

摘要： 2023年7月18日Meta开源了Llama2，在2万亿个Token上训练，可用于商业和研究，包括从7B到70B模型权重、预训练和微调的代码。相比Llama1，Llama2有较多提升，评估结果如下所示：基于Llama2模型的开源模型如下所示： 1.WizardCoder Python V1.0 h 阅读全文

posted @ 2023-09-01 22:16 扫地升阅读(377) 评论(0) 推荐(0) 编辑

中文句子关系推断

摘要：本文通过ChnSentiCorp数据集介绍了中文句子关系推断任务过程，主要使用预训练语言模型bert-base-chinese直接在测试集上进行测试，也简要介绍了模型训练流程，不过最后没有保存训练好的模型。一.任务简介和数据集通过模型来判断2个句子是否连续，使用ChnSentiCorp数据集，不阅读全文

posted @ 2023-09-01 22:16 扫地升阅读(103) 评论(0) 推荐(0) 编辑

中文完形填空

摘要：本文通过ChnSentiCorp数据集介绍了完型填空任务过程，主要使用预训练语言模型bert-base-chinese直接在测试集上进行测试，也简要介绍了模型训练流程，不过最后没有保存训练好的模型。一.完形填空完形填空应该大家都比较熟悉，就是把句子中的词挖掉，根据上下文推测挖掉的词是什么。二. 阅读全文

posted @ 2023-09-01 22:15 扫地升阅读(80) 评论(0) 推荐(0) 编辑

TextCNN和TextRNN：原理与实践

摘要： 1.TextCNN原理 CNN的核心点在于可以捕获信息的局部相关性，具体到文本分类任务中可以利用CNN来提取句子中类似N-Gram的关键信息。（1）一维卷积：使用不同尺寸的kernel_size来模拟语言模型中的N-Gram，提取句子中的信息。即TextCNN中的卷积用的是一维卷积，通过不同ker 阅读全文

posted @ 2023-09-01 22:14 扫地升阅读(78) 评论(0) 推荐(0) 编辑

残差神经网络：原理与实践

摘要： VGGNet和GoogLeNet等网络都表明有足够的深度是模型表现良好的前提，但是在网络深度增加到一定程度时，更深的网络意味着更高的训练误差。误差升高的原因是网络越深，梯度弥散[还有梯度爆炸的可能性]的现象就越明显，所以在后向传播的时候，无法有效的把梯度更新到前面的网络层，靠前的网络层参数无法更新，阅读全文

posted @ 2023-09-01 22:14 扫地升阅读(200) 评论(0) 推荐(0) 编辑

Word2Vec模型总结

摘要： 1.Huffman树的构造解析：给定n个权值作为n个叶子节点，构造一棵二叉树，若它的带权路径长度达到最小，则称这样的二叉树为最优二叉树，也称Huffman树。数的带权路径长度规定为所有叶子节点的带权路径长度之和。Huffman树构造，如下所示：（1）将看成是有n颗树的森林；（2）在森林中选出两阅读全文

posted @ 2023-09-01 22:14 扫地升阅读(73) 评论(0) 推荐(0) 编辑

多层前馈神经网络及BP算法

摘要：一.多层前馈神经网络首先说下多层前馈神经网络，BP算法，BP神经网络之间的关系。多层前馈[multilayer feed-forward]神经网络由一个输入层、一个或多个隐藏层和一个输出层组成，后向传播（BP）算法在多层前馈神经网络上面进行学习，采用BP算法的（多层）前馈神经网络被称为BP神经网络阅读全文

posted @ 2023-09-01 22:13 扫地升阅读(479) 评论(0) 推荐(0) 编辑