2020 年 10月 5 日随笔档案 - lishuaics

2020年10月5日

摘要：读取txt文件并生成词云图 (一)下载第三方模块 1.wordcloud:它把我们带权重的关键词渲染成词云。 2.jieba：是一个分词模块，因为我是从一个txt文本里提取关键词，所以需要 jieba 来分词并统计词频。如果是已经有了现成的数据，不再需要它。 pip install wordclou 阅读全文

posted @ 2020-10-05 13:32 lishuaics 阅读(3382) 评论(0) 推荐(0) 编辑

python爬取《三国演义》小说&统计词频&生成词云图

摘要： python爬取《三国演义》小说&统计词频&生成词云图注意点：爬取小说正文时用的正则表达式涉及到多行匹配。需要开启多行模式(?s) book_content_re = re.compile(r'(?s)<div.*?id="htmlContent">(.*?)</div>') 源代码练习 imp 阅读全文

posted @ 2020-10-05 13:29 lishuaics 阅读(1959) 评论(0) 推荐(0) 编辑

Python中文分词及词频统计

摘要： Python中文分词及词频统计中文分词中文分词(Chinese Word Segmentation)，将中文语句切割成单独的词组。英文使用空格来分开每个单词的，而中文单独一个汉字跟词有时候完全不是同个含义，因此，中文分词相比英文分词难度高很多。分词主要用于NLP 自然语言处理（Natural 阅读全文

posted @ 2020-10-05 13:28 lishuaics 阅读(1083) 评论(0) 推荐(0) 编辑

python爬取网站的小说2

摘要：使用正则表达式 re.compile 函数 compile 函数用于编译正则表达式，生成一个正则表达式（ Pattern ）对象，供 match() 和 search() 这两个函数使用。语法格式为： re.compile(pattern[, flags]) 参数： pattern : 一个字符串阅读全文

posted @ 2020-10-05 13:24 lishuaics 阅读(197) 评论(0) 推荐(0) 编辑

python爬取网站的小说

摘要：截图源代码 import requests # re是正则表达式 import re # 要爬取的小说url url = 'http://www.shujy.com/5200/244309/' response = requests.get(url) response.encoding='utf- 阅读全文

posted @ 2020-10-05 13:16 lishuaics 阅读(200) 评论(0) 推荐(0) 编辑

Youth

公告