会员
周边
众包
新闻
博问
闪存
赞助商
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
公众号:NLP工程化
专注于Python/C++/CUDA、ML/DL/RL和NLP/KG/DS/LLM领域的技术分享。
博客园
首页
新随笔
联系
订阅
管理
上一页
1
···
5
6
7
8
9
10
11
12
13
下一页
2023年9月11日
Llama2-Chinese项目:1-项目介绍和模型推理
摘要: Atom-7B与Llama2间的关系:Atom-7B是基于Llama2进行中文预训练的开源大模型。为什么叫原子呢?因为原子生万物,Llama中文社区希望原子大模型未来可以成为构建AI世界的基础单位。目前社区发布了6个模型,如下所示: FlagAlpha/Atom-7BFlagAlpha/Llama2
阅读全文
posted @ 2023-09-11 19:52 扫地升
阅读(1164)
评论(0)
推荐(1)
编辑
2023年9月3日
使用自动模型
摘要: 本文通过文本分类任务演示了HuggingFace自动模型使用方法,既不需要手动计算loss,也不需要手动定义下游任务模型,通过阅读自动模型实现源码,提高NLP建模能力。 一.任务和数据集介绍 1.任务介绍 前面章节通过手动方式定义下游任务模型,HuggingFace也提供了一些常见的预定义下游任务模
阅读全文
posted @ 2023-09-03 22:31 扫地升
阅读(341)
评论(0)
推荐(0)
编辑
中文命名实体识别
摘要: 本文通过people_daily_ner数据集,介绍两段式训练过程,第一阶段是训练下游任务模型,第二阶段是联合训练下游任务模型和预训练模型,来实现中文命名实体识别任务。 一.任务和数据集介绍 1.命名实体识别任务 NER(Named Entity Recognition)和Pos(Part-of-S
阅读全文
posted @ 2023-09-03 12:33 扫地升
阅读(535)
评论(0)
推荐(0)
编辑
2023年9月1日
基于Llama2模型的开源模型
摘要: 2023年7月18日Meta开源了Llama2,在2万亿个Token上训练,可用于商业和研究,包括从7B到70B模型权重、预训练和微调的代码。相比Llama1,Llama2有较多提升,评估结果如下所示: 基于Llama2模型的开源模型如下所示: 1.WizardCoder Python V1.0 h
阅读全文
posted @ 2023-09-01 22:16 扫地升
阅读(377)
评论(0)
推荐(0)
编辑
中文句子关系推断
摘要: 本文通过ChnSentiCorp数据集介绍了中文句子关系推断任务过程,主要使用预训练语言模型bert-base-chinese直接在测试集上进行测试,也简要介绍了模型训练流程,不过最后没有保存训练好的模型。 一.任务简介和数据集 通过模型来判断2个句子是否连续,使用ChnSentiCorp数据集,不
阅读全文
posted @ 2023-09-01 22:16 扫地升
阅读(103)
评论(0)
推荐(0)
编辑
中文完形填空
摘要: 本文通过ChnSentiCorp数据集介绍了完型填空任务过程,主要使用预训练语言模型bert-base-chinese直接在测试集上进行测试,也简要介绍了模型训练流程,不过最后没有保存训练好的模型。 一.完形填空 完形填空应该大家都比较熟悉,就是把句子中的词挖掉,根据上下文推测挖掉的词是什么。 二.
阅读全文
posted @ 2023-09-01 22:15 扫地升
阅读(80)
评论(0)
推荐(0)
编辑
TextCNN和TextRNN:原理与实践
摘要: 1.TextCNN原理 CNN的核心点在于可以捕获信息的局部相关性,具体到文本分类任务中可以利用CNN来提取句子中类似N-Gram的关键信息。 (1)一维卷积:使用不同尺寸的kernel_size来模拟语言模型中的N-Gram,提取句子中的信息。即TextCNN中的卷积用的是一维卷积,通过不同ker
阅读全文
posted @ 2023-09-01 22:14 扫地升
阅读(78)
评论(0)
推荐(0)
编辑
残差神经网络:原理与实践
摘要: VGGNet和GoogLeNet等网络都表明有足够的深度是模型表现良好的前提,但是在网络深度增加到一定程度时,更深的网络意味着更高的训练误差。误差升高的原因是网络越深,梯度弥散[还有梯度爆炸的可能性]的现象就越明显,所以在后向传播的时候,无法有效的把梯度更新到前面的网络层,靠前的网络层参数无法更新,
阅读全文
posted @ 2023-09-01 22:14 扫地升
阅读(200)
评论(0)
推荐(0)
编辑
Word2Vec模型总结
摘要: 1.Huffman树的构造 解析:给定n个权值作为n个叶子节点,构造一棵二叉树,若它的带权路径长度达到最小,则称这样的二叉树为最优二叉树,也称Huffman树。数的带权路径长度规定为所有叶子节点的带权路径长度之和。Huffman树构造,如下所示: (1)将看成是有n颗树的森林; (2)在森林中选出两
阅读全文
posted @ 2023-09-01 22:14 扫地升
阅读(73)
评论(0)
推荐(0)
编辑
多层前馈神经网络及BP算法
摘要: 一.多层前馈神经网络 首先说下多层前馈神经网络,BP算法,BP神经网络之间的关系。多层前馈[multilayer feed-forward]神经网络由一个输入层、一个或多个隐藏层和一个输出层组成,后向传播(BP)算法在多层前馈神经网络上面进行学习,采用BP算法的(多层)前馈神经网络被称为BP神经网络
阅读全文
posted @ 2023-09-01 22:13 扫地升
阅读(479)
评论(0)
推荐(0)
编辑
上一页
1
···
5
6
7
8
9
10
11
12
13
下一页