NLP 模型 - 随笔分类 - FromZeroToOne

深度学习常见问题

摘要：1. 忘了数据规范化 What? 在使用神经网络的过程中，非常重要的一点是要考虑好怎样规范化（normalize）你的数据。这一步不能马虎，不正确、仔细完成规范化的话，你的网络将会不能正常工作。因为规范化数据这个重要的步骤在深度学习圈中早已被大家熟知，所以论文中很少提到，因此常会成为初学者的阻碍。阅读全文

posted @ 2019-09-22 19:09 FromZeroToOne 阅读(726) 评论(0) 推荐(0) 编辑

HMM&CRF

摘要：1.HMM ，状态转移概率矩阵，这个就是其中一个概率分布。他是个矩阵，（N为隐藏状态集元素个数），其中即第i个隐状态节点,即所谓的状态转移嘛。，观测概率矩阵，即由状态估计观测的概率，这个就是另一个概率分布。他是个矩阵，（N为隐藏状态集元素个数，M为观测集元素个数），其中即第i个观测节点, 阅读全文

posted @ 2019-09-04 11:29 FromZeroToOne 阅读(263) 评论(0) 推荐(0) 编辑

深入理解wmd算法

摘要："深入理解wmd算法" WMD（Word Mover’s Distance） "1" 是2015年提出的一种衡量文本相似度的方法。它具有以下几个优点：效果出色：充分利用了 "word2vec" 的领域迁移能力无监督：不依赖标注数据，没有冷启动问题模型简单：仅需要词向量的结果作为输入，没有任何超阅读全文

posted @ 2019-08-31 20:39 FromZeroToOne 阅读(5213) 评论(0) 推荐(0) 编辑

常用相似度语料

摘要：英文语料 MPRC 二分类 0101 训练集4700条测试机1700条中文语料微众银行共10000条数据阅读全文

posted @ 2019-08-25 23:19 FromZeroToOne 阅读(514) 评论(0) 推荐(0) 编辑

比较句子相似度方法

摘要：词嵌入在NLP领域已经很流行了，它可以让我们很简单地计算两个单词的相似度，或者去找到一个目标词最相似的词，然而，我们对两个长的句子或短文本相似度更感兴趣。在这篇博客中，我们比较最流行的方法计算句子相似度，研究他们的表现. "代码链接" 很多NLP应用需要计算短文本在语义层面的相似度。比如搜索引擎，需阅读全文

posted @ 2019-08-23 20:27 FromZeroToOne 阅读(2765) 评论(0) 推荐(0) 编辑

分词

摘要：分词分词OR不分词选择正向最大匹配算法查词典基于隐马尔科夫模型的分词利用对字的状态标注进行分词 CRF条件随机场句子相似度计算 DSSM "链接" 使用点击数据来训练语义层次的匹配 one hot输入通过搜索引擎里 Query 和 Title 的海量的点击曝光日志，用 DNN 把 Qu 阅读全文

posted @ 2019-08-14 10:00 FromZeroToOne 阅读(136) 评论(0) 推荐(0) 编辑

BERT学习笔记

摘要：bert 论文阅读一、模型结构是一个多层的双向transformer encoder 注意这里tranformer模型输入的是embedding后的词向量二、 "输入编码" 可以编码一个单句或一串单句 Token Embedding 每个词被表示成一个768维的向量 CLS表示开始符号 SE 阅读全文

posted @ 2019-08-12 18:13 FromZeroToOne 阅读(634) 评论(0) 推荐(1) 编辑

Tranformer模型学习

摘要：Word Embedding Word2Vec Glove RNN改进与拓展 Seq2Seq LSTM/GRU attention/self attention Tranformer模型学习全部采用self attention 层进行编码，引入三个变换矩阵，得到Q K V向量，然后利用词与词之间Q 阅读全文

posted @ 2019-08-08 13:46 FromZeroToOne 阅读(526) 评论(0) 推荐(0) 编辑

文本特征选择

摘要：在做文本分类聚类的任务时，常常需要从文本中提取特征，提取出对学习有价值的分类，而不是把所有的词都用上，那样会造成维度灾难。因此一些词对分类的作用不大，比如“的、是、在、了”等停用词。这里介绍三种常用的特征选择方法：无监督方法： TF IDF 监督方法：卡方信息增益互信息一、TF IDF 一阅读全文

posted @ 2019-08-04 12:57 FromZeroToOne 阅读(495) 评论(0) 推荐(0) 编辑

TF-IDF 学习笔记

摘要：1.定义 TF(词频) = 词频数/一篇文章的总共词数 IDF(逆文档频率) = log(总文档数/出现该词的文档数+1) TF IDF = TF IDF ,其值越大表示其在文档中的重要性也越大， 2.应用 1. 可用它来提取某关键词 2. 与余弦相似度结合找出相似的文章具体步骤如下（1）使用T 阅读全文

posted @ 2019-08-02 15:40 FromZeroToOne 阅读(404) 评论(0) 推荐(0) 编辑

NLP比赛心得

摘要：现如今，深度学习方法成了解决nlp任务的首选方案，比如textCNN、LSTM、GRU、BiLSTM、Attention、BERT等等。当然，有的nlp任务也可以用机器学习方法去解决，至于哪种任务用哪种方法，需要我们根据实际情况去选择。就目前我接触到的nlp赛题任务有，文本分类、情感分析、关系抽取、阅读全文

posted @ 2019-08-02 14:41 FromZeroToOne 阅读(752) 评论(1) 推荐(0) 编辑

Joe's blog

随笔分类 - NLP 模型

搜索

随笔分类

随笔档案