随笔分类 - NLP

语言处理

Word2Vec 计算词语之间的余弦相似度

摘要：python中常用的分析文档、计算词语相似度的包 —— Word2Vec函数；该函数在gensim.models.Word2Vec包内。分析文本和计算相似度有几个步骤：导入需要用到的库： # 导入第三包 import jieba import pandas as pd import gensim 阅读全文

posted @ 2020-02-22 14:41 落日峡谷阅读(13028) 评论(0) 推荐(0) 编辑

sklearn.feature_extraction.text 的TfidfVectorizer函数

摘要：TfidfVectorizer函数主要用于，将文档（句子）等通过 tf-idf值来进行表示，也就是用一个tf-idf值的矩阵来表示文档（句子也可）。 from sklearn.feature_extraction.text import TfidfVectorizer 1. 其函数源代码很长，这里只阅读全文

posted @ 2019-12-06 21:12 落日峡谷阅读(3975) 评论(0) 推荐(0) 编辑

python词云图之WordCloud

摘要：1. 导入需要的包package import matplotlib.pyplot as plt from scipy.misc import imread from wordcloud import WordCloud,STOPWORDS import xlrd 2. 设置生成词云图的背景图片，最阅读全文

posted @ 2019-11-17 17:43 落日峡谷阅读(1575) 评论(0) 推荐(1) 编辑

Python使用jieba分词

摘要：# -*- coding: utf-8 -*- # Spyder (python 3.7) import pandas as pd import jieba import jieba.analyse as anls if __name__ == '__main__': data = pd.read_ 阅读全文

posted @ 2019-10-16 23:56 落日峡谷阅读(2632) 评论(0) 推荐(0) 编辑

落日峡谷

随笔分类 - NLP

Word2Vec 计算词语之间的余弦相似度

sklearn.feature_extraction.text 的TfidfVectorizer函数

python词云图之WordCloud

Python使用jieba分词

公告

导航

统计

搜索

常用链接

我的标签

积分与排名

随笔分类 (171)

随笔档案 (150)

阅读排行榜

评论排行榜

推荐排行榜

最新评论