摘要:
URLManager:爬虫系统的核心,负责URL的重要性排序,分发,调度,任务分配 ContentAcceptor:负责收集来自爬虫爬到的页面或其他内容,爬虫一般将一批页面打包发给ContentAcceptor,ContentAcceptor将其存储到分布式文件系统或分布式数据库或直接交给Conte 阅读全文
摘要:
''' 任务:制作词云图 需要安装的依赖库: # 词云 1.wordcloud # 中文分词 2.jieba # 画图 3.matplotlib # 计算 4.numpy ''' from os import path from scipy.misc import imread import mat 阅读全文