摘要: 一、概述 1、含义: 支持向量机(support vector machine,SVM)是一种二类分类器,它的基本模型是定义在特征空间上的间隔最大化的线性分类器,通过引入核函数,也可以作为非线性分类器来解决非线性数据集的分类问题。 2、求解: 支持向量机的学习策略是间隔最大化,可转化为一个求解凸二次 阅读全文
posted @ 2019-03-30 17:06 Luv_GEM 阅读(4538) 评论(0) 推荐(1) 编辑
摘要: 今天参考网上的博客,用gensim训练了word2vec词向量。训练的语料是著名科幻小说《三体》,这部小说我一直没有看,所以这次拿来折腾一下。 《三体》这本小说里有不少人名和一些特殊名词,我从网上搜了一些,作为字典,加入到jieba里,以提高分词的准确性。 一、gensim中关于word2vec的参 阅读全文
posted @ 2019-03-28 15:51 Luv_GEM 阅读(3548) 评论(0) 推荐(0) 编辑
摘要: Word2vec是Google的Mikolov等人提出来的一种文本分布式表示的方法,这种方法是对神经网络语言模型的“瘦身”, 巧妙地运用层次softmax(hierarchical softmax )和负采样(Negative sampling )两种技巧,使得原本参数繁多、计算量巨大的神经网络语言 阅读全文
posted @ 2019-03-25 13:15 Luv_GEM 阅读(3488) 评论(0) 推荐(2) 编辑
摘要: 这是文本离散表示的第二篇实战文章,要做的是运用TF-IDF算法结合n-gram,求几篇文档的TF-IDF矩阵,然后提取出各篇文档的关键词,并计算各篇文档之间的余弦距离,分析其相似度。 TF-IDF与n-gram的结合可看我的这篇文章:https://www.cnblogs.com/Luv-GEM/p 阅读全文
posted @ 2019-03-19 07:32 Luv_GEM 阅读(8108) 评论(1) 推荐(1) 编辑
摘要: 上一篇博客介绍了文本离散表示的one-hot、TF-IDF和n-gram方法,在这篇文章里,我做了一个对新闻文本进行one-hot编码的小实践。 文本的one-hot相对而言比较简单,我用了两种方法,一种是自己造轮子,第二种是用深度学习框架keras来做。同时,我发现尽管sklearn可以实现对特征 阅读全文
posted @ 2019-03-16 22:26 Luv_GEM 阅读(2674) 评论(0) 推荐(0) 编辑
摘要: 一、文本表示 文本表示的意思是把字词处理成向量或矩阵,以便计算机能进行处理。文本表示是自然语言处理的开始环节。 文本表示按照细粒度划分,一般可分为字级别、词语级别和句子级别的文本表示。字级别(char level)的如把“邓紫棋实在太可爱了,我想养一只”这句话拆成一个个的字:{邓,紫,棋,实,在,太 阅读全文
posted @ 2019-03-16 18:59 Luv_GEM 阅读(10801) 评论(0) 推荐(1) 编辑
摘要: 分词是自然语言处理中最基本的一个任务,这篇小文章不介绍相关的理论,而是介绍一个电子病历分词的小实践。 开源的分词工具中,我用过的有jieba、hnlp和stanfordnlp,感觉jieba无论安装和使用都比较便捷,拓展性也比较好。是不是直接调用开源的分词工具,就可以得到比较好的分词效果呢?答案当然 阅读全文
posted @ 2019-03-15 16:44 Luv_GEM 阅读(6252) 评论(12) 推荐(2) 编辑