随笔分类 -  NLP

语言处理
Word2Vec 计算词语之间的余弦相似度
摘要:python中常用的分析文档、计算词语相似度的包 —— Word2Vec函数;该函数在gensim.models.Word2Vec包内。 分析文本和计算相似度有几个步骤: 导入需要用到的库: # 导入第三包 import jieba import pandas as pd import gensim 阅读全文

posted @ 2020-02-22 14:41 落日峡谷 阅读(13028) 评论(0) 推荐(0) 编辑

sklearn.feature_extraction.text 的TfidfVectorizer函数
摘要:TfidfVectorizer函数主要用于,将文档(句子)等通过 tf-idf值来进行表示,也就是用一个tf-idf值的矩阵来表示文档(句子也可)。 from sklearn.feature_extraction.text import TfidfVectorizer 1. 其函数源代码很长,这里只 阅读全文

posted @ 2019-12-06 21:12 落日峡谷 阅读(3975) 评论(0) 推荐(0) 编辑

python词云图之WordCloud
摘要:1. 导入需要的包package import matplotlib.pyplot as plt from scipy.misc import imread from wordcloud import WordCloud,STOPWORDS import xlrd 2. 设置生成词云图的背景图片,最 阅读全文

posted @ 2019-11-17 17:43 落日峡谷 阅读(1575) 评论(0) 推荐(1) 编辑

Python使用jieba分词
摘要:# -*- coding: utf-8 -*- # Spyder (python 3.7) import pandas as pd import jieba import jieba.analyse as anls if __name__ == '__main__': data = pd.read_ 阅读全文

posted @ 2019-10-16 23:56 落日峡谷 阅读(2632) 评论(0) 推荐(0) 编辑

导航

< 2025年3月 >
23 24 25 26 27 28 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31 1 2 3 4 5

统计

点击右上角即可分享
微信分享提示