Youth
摘要: 读取txt文件并生成词云图 (一)下载第三方模块 1.wordcloud:它把我们带权重的关键词渲染成词云。 2.jieba:是一个分词模块,因为我是从一个txt文本里提取关键词,所以需要 jieba 来分词并统计词频。如果是已经有了现成的数据,不再需要它。 pip install wordclou 阅读全文
posted @ 2020-10-05 13:32 lishuaics 阅读(3382) 评论(0) 推荐(0) 编辑
摘要: python爬取《三国演义》小说&统计词频&生成词云图 注意点: 爬取小说正文时用的正则表达式涉及到多行匹配。需要开启多行模式(?s) book_content_re = re.compile(r'(?s)<div.*?id="htmlContent">(.*?)</div>') 源代码练习 imp 阅读全文
posted @ 2020-10-05 13:29 lishuaics 阅读(1959) 评论(0) 推荐(0) 编辑
摘要: Python中文分词及词频统计 中文分词 中文分词(Chinese Word Segmentation),将中文语句切割成单独的词组。英文使用空格来分开每个单词的,而中文单独一个汉字跟词有时候完全不是同个含义,因此,中文分词相比英文分词难度高很多。 分词主要用于NLP 自然语言处理(Natural 阅读全文
posted @ 2020-10-05 13:28 lishuaics 阅读(1083) 评论(0) 推荐(0) 编辑
摘要: 使用正则表达式 re.compile 函数 compile 函数用于编译正则表达式,生成一个正则表达式( Pattern )对象,供 match() 和 search() 这两个函数使用。 语法格式为: re.compile(pattern[, flags]) 参数: pattern : 一个字符串 阅读全文
posted @ 2020-10-05 13:24 lishuaics 阅读(197) 评论(0) 推荐(0) 编辑
摘要: 截图 源代码 import requests # re是正则表达式 import re # 要爬取的小说url url = 'http://www.shujy.com/5200/244309/' response = requests.get(url) response.encoding='utf- 阅读全文
posted @ 2020-10-05 13:16 lishuaics 阅读(200) 评论(0) 推荐(0) 编辑