摘要: URLManager:爬虫系统的核心,负责URL的重要性排序,分发,调度,任务分配 ContentAcceptor:负责收集来自爬虫爬到的页面或其他内容,爬虫一般将一批页面打包发给ContentAcceptor,ContentAcceptor将其存储到分布式文件系统或分布式数据库或直接交给Conte 阅读全文
posted @ 2020-07-18 16:40 水墨黑 阅读(404) 评论(0) 推荐(0) 编辑
摘要: ''' 任务:制作词云图 需要安装的依赖库: # 词云 1.wordcloud # 中文分词 2.jieba # 画图 3.matplotlib # 计算 4.numpy ''' from os import path from scipy.misc import imread import mat 阅读全文
posted @ 2020-07-18 14:03 水墨黑 阅读(203) 评论(0) 推荐(0) 编辑