Luv_GEM - 博客园

2019年3月30日

摘要：一、概述 1、含义：支持向量机（support vector machine，SVM）是一种二类分类器，它的基本模型是定义在特征空间上的间隔最大化的线性分类器，通过引入核函数，也可以作为非线性分类器来解决非线性数据集的分类问题。 2、求解：支持向量机的学习策略是间隔最大化，可转化为一个求解凸二次阅读全文

posted @ 2019-03-30 17:06 Luv_GEM 阅读(4538) 评论(0) 推荐(1) 编辑

2019年3月28日

文本分布式表示（三）：用gensim训练word2vec词向量

摘要：今天参考网上的博客，用gensim训练了word2vec词向量。训练的语料是著名科幻小说《三体》，这部小说我一直没有看，所以这次拿来折腾一下。《三体》这本小说里有不少人名和一些特殊名词，我从网上搜了一些，作为字典，加入到jieba里，以提高分词的准确性。一、gensim中关于word2vec的参阅读全文

posted @ 2019-03-28 15:51 Luv_GEM 阅读(3548) 评论(0) 推荐(0) 编辑

2019年3月25日

文本分布式表示（一）：word2vec理论

摘要： Word2vec是Google的Mikolov等人提出来的一种文本分布式表示的方法，这种方法是对神经网络语言模型的“瘦身”，巧妙地运用层次softmax（hierarchical softmax ）和负采样（Negative sampling ）两种技巧，使得原本参数繁多、计算量巨大的神经网络语言阅读全文

posted @ 2019-03-25 13:15 Luv_GEM 阅读(3488) 评论(0) 推荐(2) 编辑

2019年3月19日

文本离散表示（三）：TF-IDF结合n-gram进行关键词提取和文本相似度分析

摘要：这是文本离散表示的第二篇实战文章，要做的是运用TF-IDF算法结合n-gram，求几篇文档的TF-IDF矩阵，然后提取出各篇文档的关键词，并计算各篇文档之间的余弦距离，分析其相似度。 TF-IDF与n-gram的结合可看我的这篇文章：https://www.cnblogs.com/Luv-GEM/p 阅读全文

posted @ 2019-03-19 07:32 Luv_GEM 阅读(8108) 评论(1) 推荐(1) 编辑

2019年3月16日

文本离散表示（二）：新闻语料的one-hot编码

摘要：上一篇博客介绍了文本离散表示的one-hot、TF-IDF和n-gram方法，在这篇文章里，我做了一个对新闻文本进行one-hot编码的小实践。文本的one-hot相对而言比较简单，我用了两种方法，一种是自己造轮子，第二种是用深度学习框架keras来做。同时，我发现尽管sklearn可以实现对特征阅读全文

posted @ 2019-03-16 22:26 Luv_GEM 阅读(2674) 评论(0) 推荐(0) 编辑

文本离散表示（一）：词袋模型（bag of words）

摘要：一、文本表示文本表示的意思是把字词处理成向量或矩阵，以便计算机能进行处理。文本表示是自然语言处理的开始环节。文本表示按照细粒度划分，一般可分为字级别、词语级别和句子级别的文本表示。字级别（char level）的如把“邓紫棋实在太可爱了，我想养一只”这句话拆成一个个的字：｛邓，紫，棋，实，在，太阅读全文

posted @ 2019-03-16 18:59 Luv_GEM 阅读(10801) 评论(0) 推荐(1) 编辑

2019年3月15日

中文分词实战——基于jieba动态加载字典和调整词频的电子病历分词

摘要：分词是自然语言处理中最基本的一个任务，这篇小文章不介绍相关的理论，而是介绍一个电子病历分词的小实践。开源的分词工具中，我用过的有jieba、hnlp和stanfordnlp，感觉jieba无论安装和使用都比较便捷，拓展性也比较好。是不是直接调用开源的分词工具，就可以得到比较好的分词效果呢？答案当然阅读全文

posted @ 2019-03-15 16:44 Luv_GEM 阅读(6252) 评论(12) 推荐(2) 编辑

Luv_G.E.M

教练，我是自然语言处理插班生

公告