随笔分类 -  NLP 模型

摘要:1. 忘了数据规范化 What? 在使用神经网络的过程中,非常重要的一点是要考虑好怎样规范化(normalize)你的数据。这一步不能马虎,不正确、仔细完成规范化的话,你的网络将会不能正常工作。因为规范化数据这个重要的步骤在深度学习圈中早已被大家熟知,所以论文中很少提到,因此常会成为初学者的阻碍。 阅读全文
posted @ 2019-09-22 19:09 FromZeroToOne 阅读(726) 评论(0) 推荐(0) 编辑
摘要:1.HMM ,状态转移概率矩阵,这个就是其中一个概率分布。他是个矩阵, (N为隐藏状态集元素个数),其中 即第i个隐状态节点,即所谓的状态转移嘛。 ,观测概率矩阵,即由状态估计观测的概率,这个就是另一个概率分布。他是个矩阵, (N为隐藏状态集元素个数,M为观测集元素个数),其中 即第i个观测节点, 阅读全文
posted @ 2019-09-04 11:29 FromZeroToOne 阅读(263) 评论(0) 推荐(0) 编辑
摘要:"深入理解wmd算法" WMD(Word Mover’s Distance) "1" 是2015年提出的一种衡量文本相似度的方法。它具有以下几个优点: 效果出色:充分利用了 "word2vec" 的领域迁移能力 无监督:不依赖标注数据,没有冷启动问题 模型简单:仅需要词向量的结果作为输入,没有任何超 阅读全文
posted @ 2019-08-31 20:39 FromZeroToOne 阅读(5213) 评论(0) 推荐(0) 编辑
摘要:英文语料 MPRC 二分类 0101 训练集4700条 测试机1700条 中文语料 微众银行 共10000条数据 阅读全文
posted @ 2019-08-25 23:19 FromZeroToOne 阅读(514) 评论(0) 推荐(0) 编辑
摘要:词嵌入在NLP领域已经很流行了,它可以让我们很简单地计算两个单词的相似度,或者去找到一个目标词最相似的词,然而,我们对两个长的句子或短文本相似度更感兴趣。在这篇博客中,我们比较最流行的方法计算句子相似度,研究他们的表现. "代码链接" 很多NLP应用需要计算短文本在语义层面的相似度。比如搜索引擎,需 阅读全文
posted @ 2019-08-23 20:27 FromZeroToOne 阅读(2765) 评论(0) 推荐(0) 编辑
摘要:分词 分词OR不分词选择 正向最大匹配算法 查词典 基于隐马尔科夫模型的分词 利用对字的状态标注进行分词 CRF条件随机场 句子相似度计算 DSSM "链接" 使用点击数据来训练语义层次的匹配 one hot输入 通过搜索引擎里 Query 和 Title 的海量的点击曝光日志,用 DNN 把 Qu 阅读全文
posted @ 2019-08-14 10:00 FromZeroToOne 阅读(136) 评论(0) 推荐(0) 编辑
摘要:bert 论文阅读 一、模型结构 是一个多层的双向transformer encoder 注意 这里tranformer模型输入的是embedding后的词向量 二、 "输入编码" 可以编码一个单句或一串单句 Token Embedding 每个词被表示成一个768维的向量 CLS表示开始符号 SE 阅读全文
posted @ 2019-08-12 18:13 FromZeroToOne 阅读(634) 评论(0) 推荐(1) 编辑
摘要:Word Embedding Word2Vec Glove RNN改进与拓展 Seq2Seq LSTM/GRU attention/self attention Tranformer模型学习 全部采用self attention 层进行编码,引入三个变换矩阵,得到Q K V向量,然后利用词与词之间Q 阅读全文
posted @ 2019-08-08 13:46 FromZeroToOne 阅读(526) 评论(0) 推荐(0) 编辑
摘要:在做文本分类聚类的任务时,常常需要从文本中提取特征,提取出对学习有价值的分类,而不是把所有的词都用上,那样会造成维度灾难。因此一些词对分类的作用不大,比如“的、是、在、了”等停用词。这里介绍三种常用的特征选择方法: 无监督方法: TF IDF 监督方法: 卡方 信息增益 互信息 一、TF IDF 一 阅读全文
posted @ 2019-08-04 12:57 FromZeroToOne 阅读(495) 评论(0) 推荐(0) 编辑
摘要:1.定义 TF(词频) = 词频数/一篇文章的总共词数 IDF(逆文档频率) = log(总文档数/出现该词的文档数+1) TF IDF = TF IDF ,其值越大表示其在文档中的重要性也越大, 2.应用 1. 可用它来提取某关键词 2. 与余弦相似度结合找出相似的文章 具体步骤如下 (1)使用T 阅读全文
posted @ 2019-08-02 15:40 FromZeroToOne 阅读(404) 评论(0) 推荐(0) 编辑
摘要:现如今,深度学习方法成了解决nlp任务的首选方案,比如textCNN、LSTM、GRU、BiLSTM、Attention、BERT等等。当然,有的nlp任务也可以用机器学习方法去解决,至于哪种任务用哪种方法,需要我们根据实际情况去选择。就目前我接触到的nlp赛题任务有,文本分类、情感分析、关系抽取、 阅读全文
posted @ 2019-08-02 14:41 FromZeroToOne 阅读(752) 评论(1) 推荐(0) 编辑

点击右上角即可分享
微信分享提示
🚀
回顶
收起
  1. 1 404 not found REOL
404 not found - REOL
00:00 / 00:00
An audio error has occurred.