随笔 - 128  文章 - 0  评论 - 75  阅读 - 11万
09 2023 档案
手动实现BERT
摘要:本文重点介绍了如何从零训练一个BERT模型的过程,包括整体上BERT模型架构、数据集如何做预处理、MASK替换策略、训练模型和保存、加载模型和测试等。 一.BERT架构 BERT设计初衷是作为一个通用的backbone,然后在下游接入各种任务,包括翻译任务、分类任务、回归任务等。BERT模型架构如下 阅读全文
posted @ 2023-09-29 23:23 扫地升 阅读(141) 评论(0) 推荐(0) 编辑
手动实现Transformer
摘要:Transformer和BERT可谓是LLM的基础模型,彻底搞懂极其必要。Transformer最初设想是作为文本翻译模型使用的,而BERT模型构建使用了Transformer的部分组件,如果理解了Transformer,则能很轻松地理解BERT。 一.Transformer模型架构 1.编码器 ( 阅读全文
posted @ 2023-09-29 23:22 扫地升 阅读(868) 评论(0) 推荐(4) 编辑
NebulaGraph实战:3-信息抽取构建知识图谱
摘要:自动信息抽取发展了几十年,虽然模型很多,但是泛化能力很难用满意来形容,直到LLM的诞生。虽然最终信息抽取质量部分还是需要专家审核,但是已经极大的提高了信息抽取的效率。因为传统方法需要大量时间来完成数据清洗、标注和训练,然后来实体抽取、实体属性抽取、实体关系抽取、事件抽取、实体链接和指代消解等等。现在 阅读全文
posted @ 2023-09-26 00:12 扫地升 阅读(873) 评论(0) 推荐(0) 编辑
NebulaGraph实战:2-NebulaGraph手工和Python操作
摘要:图数据库是专门存储庞大的图形网络并从中检索信息的数据库。它可以将图中的数据高效存储为点(Vertex)和边(Edge),还可以将属性(Property)附加到点和边上。本文以示例数据集basketballplayer为例,通过nGQL操作和Python脚本两种方式构建图谱。数据[10]和代码[9]详 阅读全文
posted @ 2023-09-24 20:51 扫地升 阅读(332) 评论(0) 推荐(0) 编辑
NebulaGraph实战:1-NebulaGraph安装和基础操作
摘要:以前使用Neo4j图数据库,考虑到生产环境需要最终选择了NebulaGraph图数据库。对于数据要求比较高的领域,比如医疗、财务等,暂时还是离不开知识图谱的。后面主要围绕LLM+KG做一些行业解决方案和产品,涉及的技术主要是对话、推荐、检索这3个大的方向,可用于客服系统和聊天机器人等。 1.安装Ne 阅读全文
posted @ 2023-09-24 20:51 扫地升 阅读(452) 评论(0) 推荐(0) 编辑
Llama2-Chinese项目:2.3-预训练使用QA还是Text数据集?
摘要:Llama2-Chinese项目给出pretrain的data为QA数据格式,可能会有疑问pretrain不应该是Text数据格式吗?而在Chinese-LLaMA-Alpaca-2和open-llama2预训练使用的LoRA技术,给出pretrain的data为Text数据格式。所以推测应该pre 阅读全文
posted @ 2023-09-24 20:43 扫地升 阅读(1204) 评论(0) 推荐(1) 编辑
《语义增强可编程知识图谱SPG》白皮书
摘要:语义増强可编程图谱框架:新一代知识图谱语义框架/引擎、SPG+LLM双驱架构及应用相关进展和应用。《语义增强可编程知识图谱SPG》白皮书 v1.0.pdf: https://url39.ctfile.com/f/2501739-941002398-f8f1f0?p=2096 (访问密码: 2096) 阅读全文
posted @ 2023-09-18 22:45 扫地升 阅读(191) 评论(0) 推荐(0) 编辑
心理健康数据集:mental_health_chatbot_dataset
摘要:一.数据集描述 1.数据集摘要 该数据集包含与心理健康相关的问题和答案的对话对,以单一文本形式呈现。数据集是从流行的医疗博客(如WebMD、Mayo Clinic和HealthLine)、在线常见问题等来源精选而来的。所有问题和答案都经过匿名化处理,以删除任何个人身份信息(PII),并经过预处理以删 阅读全文
posted @ 2023-09-18 22:42 扫地升 阅读(312) 评论(0) 推荐(0) 编辑
Falcon-7B大型语言模型在心理健康对话数据集上使用QLoRA进行微调
摘要:文本是参考文献[1]的中文翻译,主要讲解了Falcon-7B大型语言模型在心理健康对话数据集上使用QLoRA进行微调的过程。项目GitHub链接为https://github.com/iamarunbrahma/finetuned-qlora-falcon7b-medical,如下所示: 使用领域适 阅读全文
posted @ 2023-09-18 22:38 扫地升 阅读(451) 评论(0) 推荐(0) 编辑
使用TorchLens可视化一个简单的神经网络
摘要:TorchLens:可用于可视化任何PyTorch模型,一个包用于在一行代码中提取和映射PyTorch模型中每个张量运算的结果。TorchLens功能非常强大,如果能够熟练掌握,算是可视化PyTorch模型的一把利剑。本文通过TorchLens可视化一个简单神经网络,算是抛砖引玉吧。 一.定义一个简 阅读全文
posted @ 2023-09-18 00:07 扫地升 阅读(413) 评论(0) 推荐(1) 编辑
Llama2-Chinese项目:2.2-大语言模型词表扩充
摘要:因为原生LLaMA对中文的支持很弱,一个中文汉子往往被切分成多个token,因此需要对其进行中文词表扩展。思路通常是在中文语料库上训练一个中文tokenizer模型,然后将中文tokenizer与LLaMA原生tokenizer进行合并,最终得到一个扩展后的tokenizer模型。国内Chinese 阅读全文
posted @ 2023-09-16 22:32 扫地升 阅读(1996) 评论(0) 推荐(0) 编辑
Llama2-Chinese项目:2.1-Atom-7B预训练
摘要:虽然Llama2的预训练数据相对于第一代LLaMA扩大了一倍,但是中文预训练数据的比例依然非常少,仅占0.13%,这也导致了原始Llama2的中文能力较弱。为了能够提升模型的中文能力,可以采用微调和预训练两种路径,其中: 微调需要的算力资源少,能够快速实现一个中文Llama的雏形。但缺点也显而易见, 阅读全文
posted @ 2023-09-16 22:31 扫地升 阅读(1859) 评论(0) 推荐(3) 编辑
基于Protege的知识建模实战
摘要:一.Protege简介、用途和特点 1.Protege简介 Protege是斯坦福大学医学院生物信息研究中心基于Java开发的本体编辑和本体开发工具,也是基于知识的编辑器,属于开放源代码软件。这个软件主要用于语义网中本体的构建,是语义网中本体构建的核心开发工具,下面操作使用版本为5.5.0。 2.P 阅读全文
posted @ 2023-09-13 23:27 扫地升 阅读(861) 评论(0) 推荐(0) 编辑
Llama2-Chinese项目:1-项目介绍和模型推理
摘要:Atom-7B与Llama2间的关系:Atom-7B是基于Llama2进行中文预训练的开源大模型。为什么叫原子呢?因为原子生万物,Llama中文社区希望原子大模型未来可以成为构建AI世界的基础单位。目前社区发布了6个模型,如下所示: FlagAlpha/Atom-7BFlagAlpha/Llama2 阅读全文
posted @ 2023-09-11 19:52 扫地升 阅读(1202) 评论(0) 推荐(1) 编辑
使用自动模型
摘要:本文通过文本分类任务演示了HuggingFace自动模型使用方法,既不需要手动计算loss,也不需要手动定义下游任务模型,通过阅读自动模型实现源码,提高NLP建模能力。 一.任务和数据集介绍 1.任务介绍 前面章节通过手动方式定义下游任务模型,HuggingFace也提供了一些常见的预定义下游任务模 阅读全文
posted @ 2023-09-03 22:31 扫地升 阅读(356) 评论(0) 推荐(0) 编辑
中文命名实体识别
摘要:本文通过people_daily_ner数据集,介绍两段式训练过程,第一阶段是训练下游任务模型,第二阶段是联合训练下游任务模型和预训练模型,来实现中文命名实体识别任务。 一.任务和数据集介绍 1.命名实体识别任务 NER(Named Entity Recognition)和Pos(Part-of-S 阅读全文
posted @ 2023-09-03 12:33 扫地升 阅读(604) 评论(0) 推荐(0) 编辑
基于Llama2模型的开源模型
摘要:2023年7月18日Meta开源了Llama2,在2万亿个Token上训练,可用于商业和研究,包括从7B到70B模型权重、预训练和微调的代码。相比Llama1,Llama2有较多提升,评估结果如下所示: 基于Llama2模型的开源模型如下所示: 1.WizardCoder Python V1.0 h 阅读全文
posted @ 2023-09-01 22:16 扫地升 阅读(395) 评论(0) 推荐(0) 编辑
中文句子关系推断
摘要:本文通过ChnSentiCorp数据集介绍了中文句子关系推断任务过程,主要使用预训练语言模型bert-base-chinese直接在测试集上进行测试,也简要介绍了模型训练流程,不过最后没有保存训练好的模型。 一.任务简介和数据集 通过模型来判断2个句子是否连续,使用ChnSentiCorp数据集,不 阅读全文
posted @ 2023-09-01 22:16 扫地升 阅读(137) 评论(0) 推荐(0) 编辑
中文完形填空
摘要:本文通过ChnSentiCorp数据集介绍了完型填空任务过程,主要使用预训练语言模型bert-base-chinese直接在测试集上进行测试,也简要介绍了模型训练流程,不过最后没有保存训练好的模型。 一.完形填空 完形填空应该大家都比较熟悉,就是把句子中的词挖掉,根据上下文推测挖掉的词是什么。 二. 阅读全文
posted @ 2023-09-01 22:15 扫地升 阅读(86) 评论(0) 推荐(0) 编辑
TextCNN和TextRNN:原理与实践
摘要:1.TextCNN原理 CNN的核心点在于可以捕获信息的局部相关性,具体到文本分类任务中可以利用CNN来提取句子中类似N-Gram的关键信息。 (1)一维卷积:使用不同尺寸的kernel_size来模拟语言模型中的N-Gram,提取句子中的信息。即TextCNN中的卷积用的是一维卷积,通过不同ker 阅读全文
posted @ 2023-09-01 22:14 扫地升 阅读(125) 评论(0) 推荐(0) 编辑
残差神经网络:原理与实践
摘要:VGGNet和GoogLeNet等网络都表明有足够的深度是模型表现良好的前提,但是在网络深度增加到一定程度时,更深的网络意味着更高的训练误差。误差升高的原因是网络越深,梯度弥散[还有梯度爆炸的可能性]的现象就越明显,所以在后向传播的时候,无法有效的把梯度更新到前面的网络层,靠前的网络层参数无法更新, 阅读全文
posted @ 2023-09-01 22:14 扫地升 阅读(295) 评论(0) 推荐(0) 编辑
Word2Vec模型总结
摘要:1.Huffman树的构造 解析:给定n个权值作为n个叶子节点,构造一棵二叉树,若它的带权路径长度达到最小,则称这样的二叉树为最优二叉树,也称Huffman树。数的带权路径长度规定为所有叶子节点的带权路径长度之和。Huffman树构造,如下所示: (1)将看成是有n颗树的森林; (2)在森林中选出两 阅读全文
posted @ 2023-09-01 22:14 扫地升 阅读(92) 评论(0) 推荐(0) 编辑
多层前馈神经网络及BP算法
摘要:一.多层前馈神经网络 首先说下多层前馈神经网络,BP算法,BP神经网络之间的关系。多层前馈[multilayer feed-forward]神经网络由一个输入层、一个或多个隐藏层和一个输出层组成,后向传播(BP)算法在多层前馈神经网络上面进行学习,采用BP算法的(多层)前馈神经网络被称为BP神经网络 阅读全文
posted @ 2023-09-01 22:13 扫地升 阅读(571) 评论(0) 推荐(0) 编辑

< 2025年2月 >
26 27 28 29 30 31 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 1
2 3 4 5 6 7 8

点击右上角即可分享
微信分享提示