摘要: 基于LSTM语言模型的文本生成 1. 文本生成 1.1 基于语言模型的文本生成 基于马尔科夫的语言模型且在数据驱动下的自然语言生成。利用数据和文字间的对齐语料,使用N-gram语言模型生成文本。在语言模型上加入句法分析(关系抽取、实体识别、依存句法、短语结构等)还可以显著改善生成效果。因为这些都建立 阅读全文
posted @ 2021-04-23 13:26 MissHsu 阅读(3540) 评论(0) 推荐(1) 编辑
摘要: RNN 梯度消失&梯度爆炸 参考:https://zhuanlan.zhihu.com/p/33006526?from_voters_page=true 梯度消失和梯度爆炸本质是同一种情况。梯度消失经常出现的原因:一是使用深层网络;二是采用不合适的损失函数,如Sigmoid。梯度爆炸一般出现的场景: 阅读全文
posted @ 2021-04-23 13:11 MissHsu 阅读(818) 评论(0) 推荐(0) 编辑
摘要: Named Entity Recognition 1. NER 1.1 NER定义 命名实体识别(NER): 也称为实体识别、实体分块和实体提取,是信息提取的一个子任务,旨在将文本中的命名实体定位并分类为预先定义的类别,如人员、组织、位置、时间表达式、数量、货币值、百分比等。 1.2 数据格式 NE 阅读全文
posted @ 2021-04-23 13:01 MissHsu 阅读(831) 评论(0) 推荐(1) 编辑
摘要: 文本生成任务的评价方法 参考资料:https://baijiahao.baidu.com/s?id=1655137746278637231&wfr=spider&for=pc 1.BLEU BLEU (Bilingual Evaluation Understudy)——越大越好 核心:比较候选译文和 阅读全文
posted @ 2021-04-23 12:54 MissHsu 阅读(1591) 评论(0) 推荐(0) 编辑
摘要: 多模态文本分类技术 1. 多模态表示学习(Representation) 1.1 联合表示(Joint Representation) 定义:将多个模态的信息一起映射到一个统一的多模态向量空间 论文:Multimodal learning with deep boltzmann machines, 阅读全文
posted @ 2021-04-22 19:32 MissHsu 阅读(4546) 评论(0) 推荐(0) 编辑
摘要: Beam Search 及5种优化方法 1. Review Beam Search 参考:吴恩达 深度学习 笔记 Course 5 Week 3 Sequence Models 回顾beam search: 对greedy search进行了改进:扩大搜索空间,更容易得到全局最优解。beam sea 阅读全文
posted @ 2021-04-22 19:22 MissHsu 阅读(3649) 评论(0) 推荐(1) 编辑
摘要: CNN卷积类型有哪些? 1. 卷积类型 1.1 普通卷积:2D-Convolution 原始的conv操作可以看做一个2D版本的无隐层神经网络。 代表模型: LeNet:最早使用stack单卷积+单池化结构的方式,卷积层来做特征提取,池化来做空间下采样 AlexNet:后来发现单卷积提取到的特征不是 阅读全文
posted @ 2021-04-22 19:15 MissHsu 阅读(1828) 评论(0) 推荐(1) 编辑
摘要: CNN卷积和通道? 1. CNN基本结构 全连接, 局部连接 权值共享 2. 卷积和通道的区别是什么 参考资料: https://www.cnblogs.com/shine-lee/p/10243114.html https://blog.yani.ai/filter-group-tutorial/ 阅读全文
posted @ 2021-04-22 19:06 MissHsu 阅读(612) 评论(0) 推荐(0) 编辑
摘要: CNN模型 1. CNN模型发展 1.1 AlexNet 卷积核一定越大越好吗?-- 小卷积核 分组卷积首先在在AlexNet中出现,还用到一些非常大的卷积核,比如11×11、5×5卷积核,先前的观念是:卷积核越大,receptive field(感受野)越大,获取到的图片信息越多,因此获得的特征越 阅读全文
posted @ 2021-04-22 18:58 MissHsu 阅读(1678) 评论(0) 推荐(0) 编辑
摘要: Pointer Network发展与应用 1. Pointer Network(Ptr-Nets) 论文:Pointer Networks 传统的 Seq2Seq 模型中 Decoder 输出的目标数量是固定的,例如翻译时 Decoder 预测的目标数量等于字典的大小。这导致 Seq2Seq 不能用 阅读全文
posted @ 2021-04-22 18:45 MissHsu 阅读(835) 评论(0) 推荐(0) 编辑