摘要:
在我们的项目中,单单分析一个51job网站的工作职位可能爬取结果不太理想,所以我又爬取了boss直聘网的工作,不过boss直聘的网站一次只能展示300个职位,所以我们一次也只能爬取300个职位。 jobbossspider.py: items.py pipelines输出管道: pipelinemy 阅读全文
摘要:
仅仅从网上爬下数据当然是不够用的,主要还得对数据进行分析与展示,大部分人都看重薪资,但是薪资数据有的是*k/月,有的是*万/月,还有*万/年等等,就要对数据进行清理 将所有单位统一化,全部换算成统一单位,然后分类薪资范围,在计算各个范围的数量,最后绘图展示 前面写的是数据库的操作函数,其实可以封装成 阅读全文
摘要:
由于需要在项目中展示数据,查了查资料发现,pyecharts模块在网页数据展示方面有很大优势,所以就学了点pyechas 参考博客:Python:数据可视化pyecharts的使用 - JYRoy - 博客园 http://www.cnblogs.com/jyroy/p/9446486.html p 阅读全文
摘要:
今日学习了python的词云技术 结果如下:这是没有背景图的词云 接下来这个是爱丽丝漫游小说的词云 用英文做词云很简单,不需要很麻烦的分词技术,用wordcloud模块就可以简单实现 运行结果如下 背景图: 最后是中文词云,中文词云就比较麻烦了,得用到jieba模块的分词技术,还得筛选 运行结果: 阅读全文
摘要:
闲来无事,做的一个小爬虫项目 爬虫主程序: items设置 输出管道: 保存到本地的管道: setting的设置,往setting.py加入 爬取的最终结果 本来想把这些图片分门分类的保存,然而不太会,所有的图片全保存在一个文件夹下面,,, 阅读全文