摘要: 在NLP领域,自然语言通常是指以文本的形式存在,但是计算无法对这些文本数据进行计算,通常需要将这些文本数据转换为一系列的数值进行计算。那么具体怎么做的呢?这里就用到词向量的概念。 一般情况下,当我们拿到文本数据的时候,会先对文本进行分词,然后将每个单词映射为相应的词向量,最后基于这些词向量进行计算, 阅读全文
posted @ 2022-08-26 18:57 xiaomin_beyonce 阅读(26) 评论(0) 推荐(0) 编辑
摘要: **命名实体识别(Named Entity Recoginition, NER)**旨在将一串文本中的实体识别出来,并标注出它所指代的类型,比如人名、地名等等。具体地,根据MUC会议规定,命名实体识别任务包括三个子任务: 实体名:人名、地名、机构名等 时间表达式:日期、时间、持续时间等 数字表达式: 阅读全文
posted @ 2022-08-26 18:08 xiaomin_beyonce 阅读(153) 评论(0) 推荐(0) 编辑
摘要: 从字面上看,预训练模型(pre-training model)是先通过一批语料进行训练模型,然后在这个初步训练好的模型基础上,再继续训练或者另作他用。这样的理解基本上是对的,预训练模型的训练和使用分别对应两个阶段:预训练阶段(pre-training)和 微调(fune-tuning)阶段。 预训练 阅读全文
posted @ 2022-08-26 17:48 xiaomin_beyonce 阅读(2009) 评论(0) 推荐(1) 编辑
摘要: 在神经网络发展的过程中,几乎所有关于LSTM的文章中对于LSTM的结构都会做出一些变动,也称为LSTM的变体。其中变动较大的是门控循环单元(Gated Recurrent Units),也就是较为流行的GRU。GRU是2014年由Cho, et al在文章《Learning Phrase Repre 阅读全文
posted @ 2022-08-26 17:40 xiaomin_beyonce 阅读(209) 评论(0) 推荐(0) 编辑
摘要: 长短时记忆网络(Long Short Term Memory,简称LSTM)是循环神经网络的一种,它为了解决RNN自身的缺陷,向RNN单元中引入了门机制进行改善,下面我们来看看它具体是怎么做的吧。本文内容组织如下: LSTM的设计思路 LSTM是怎样工作的 从公式层面理解LSTM 使用LSTM设计情 阅读全文
posted @ 2022-08-26 17:37 xiaomin_beyonce 阅读(306) 评论(0) 推荐(0) 编辑
摘要: 生活中,我们经常会遇到或者使用一些时序信号,比如自然语言语音,自然语言文本。以自然语言文本为例,完整的一句话中各个字符之间是有时序关系的,各个字符顺序的调换有可能变成语义完全不同的两句话,就像下面这个句子: 张三非常生气,冲动之下打了李四 李四非常生气,冲动之下打了张三 从以上这个例子可以看出,名字 阅读全文
posted @ 2022-08-26 10:02 xiaomin_beyonce 阅读(149) 评论(0) 推荐(0) 编辑
摘要: 1. 硬性注意力机制 在经典注意力机制章节我们使用了一种软性注意力的方式进行Attention机制,它通过注意力分布来加权求和融合各个输入向量。而硬性注意力(Hard Attention)机制则不是采用这种方式,它是根据注意力分布选择输入向量中的一个作为输出。这里有两种选择方式: 选择注意力分布中, 阅读全文
posted @ 2022-08-26 09:54 xiaomin_beyonce 阅读(514) 评论(0) 推荐(0) 编辑
摘要: 假设有一天热爱绘画的你决定去户外写生,你来到一片山坡上,极目远去,心旷神怡。头顶一片蔚蓝,脚踩一席草绿,远处山川连绵,眼前花草送香,暖阳含羞云后,轻风拂动衣襟,鸟啼虫鸣入耳,美景丹青共卷。 图1《起风了》插图 你集中精神,拿起画笔将蓝天、白云、青草等等这些元素,按照所思所想纷纷绘入画板。在绘画的过程 阅读全文
posted @ 2022-08-26 09:18 xiaomin_beyonce 阅读(208) 评论(0) 推荐(0) 编辑
摘要: 1. 用机器翻译任务带你看Attention机制的计算 单独地去讲Attention机制会有些抽象,也有些枯燥,所以我们不妨以机器翻译任务为例,通过讲解Attention机制在机器翻译任务中的应用方式,来了解Attention机制的使用。 什么是机器翻译任务?以中译英为例,机器翻译是将一串中文语句翻 阅读全文
posted @ 2022-08-26 09:18 xiaomin_beyonce 阅读(115) 评论(0) 推荐(0) 编辑
摘要: 假设当前有两个nn维向量xx和yy (除非特别说明,本文默认依此写法表示向量),可以通过两个向量之间的距离或者相似度来判定这两个向量的相近程度,显然两个向量之间距离越小,相似度越高;两个向量之间距离越大,相似度越低。 1. 常见的距离计算方式 1.1 闵可夫斯基距离(Minkowski Distan 阅读全文
posted @ 2022-08-26 09:17 xiaomin_beyonce 阅读(575) 评论(0) 推荐(0) 编辑