随笔分类 - NLP 模型
摘要:1. 忘了数据规范化 What? 在使用神经网络的过程中,非常重要的一点是要考虑好怎样规范化(normalize)你的数据。这一步不能马虎,不正确、仔细完成规范化的话,你的网络将会不能正常工作。因为规范化数据这个重要的步骤在深度学习圈中早已被大家熟知,所以论文中很少提到,因此常会成为初学者的阻碍。
阅读全文
摘要:1.HMM ,状态转移概率矩阵,这个就是其中一个概率分布。他是个矩阵, (N为隐藏状态集元素个数),其中 即第i个隐状态节点,即所谓的状态转移嘛。 ,观测概率矩阵,即由状态估计观测的概率,这个就是另一个概率分布。他是个矩阵, (N为隐藏状态集元素个数,M为观测集元素个数),其中 即第i个观测节点,
阅读全文
摘要:"深入理解wmd算法" WMD(Word Mover’s Distance) "1" 是2015年提出的一种衡量文本相似度的方法。它具有以下几个优点: 效果出色:充分利用了 "word2vec" 的领域迁移能力 无监督:不依赖标注数据,没有冷启动问题 模型简单:仅需要词向量的结果作为输入,没有任何超
阅读全文
摘要:英文语料 MPRC 二分类 0101 训练集4700条 测试机1700条 中文语料 微众银行 共10000条数据
阅读全文
摘要:词嵌入在NLP领域已经很流行了,它可以让我们很简单地计算两个单词的相似度,或者去找到一个目标词最相似的词,然而,我们对两个长的句子或短文本相似度更感兴趣。在这篇博客中,我们比较最流行的方法计算句子相似度,研究他们的表现. "代码链接" 很多NLP应用需要计算短文本在语义层面的相似度。比如搜索引擎,需
阅读全文
摘要:分词 分词OR不分词选择 正向最大匹配算法 查词典 基于隐马尔科夫模型的分词 利用对字的状态标注进行分词 CRF条件随机场 句子相似度计算 DSSM "链接" 使用点击数据来训练语义层次的匹配 one hot输入 通过搜索引擎里 Query 和 Title 的海量的点击曝光日志,用 DNN 把 Qu
阅读全文
摘要:bert 论文阅读 一、模型结构 是一个多层的双向transformer encoder 注意 这里tranformer模型输入的是embedding后的词向量 二、 "输入编码" 可以编码一个单句或一串单句 Token Embedding 每个词被表示成一个768维的向量 CLS表示开始符号 SE
阅读全文
摘要:Word Embedding Word2Vec Glove RNN改进与拓展 Seq2Seq LSTM/GRU attention/self attention Tranformer模型学习 全部采用self attention 层进行编码,引入三个变换矩阵,得到Q K V向量,然后利用词与词之间Q
阅读全文
摘要:在做文本分类聚类的任务时,常常需要从文本中提取特征,提取出对学习有价值的分类,而不是把所有的词都用上,那样会造成维度灾难。因此一些词对分类的作用不大,比如“的、是、在、了”等停用词。这里介绍三种常用的特征选择方法: 无监督方法: TF IDF 监督方法: 卡方 信息增益 互信息 一、TF IDF 一
阅读全文
摘要:1.定义 TF(词频) = 词频数/一篇文章的总共词数 IDF(逆文档频率) = log(总文档数/出现该词的文档数+1) TF IDF = TF IDF ,其值越大表示其在文档中的重要性也越大, 2.应用 1. 可用它来提取某关键词 2. 与余弦相似度结合找出相似的文章 具体步骤如下 (1)使用T
阅读全文
摘要:现如今,深度学习方法成了解决nlp任务的首选方案,比如textCNN、LSTM、GRU、BiLSTM、Attention、BERT等等。当然,有的nlp任务也可以用机器学习方法去解决,至于哪种任务用哪种方法,需要我们根据实际情况去选择。就目前我接触到的nlp赛题任务有,文本分类、情感分析、关系抽取、
阅读全文