摘要: 在我们的项目中,单单分析一个51job网站的工作职位可能爬取结果不太理想,所以我又爬取了boss直聘网的工作,不过boss直聘的网站一次只能展示300个职位,所以我们一次也只能爬取300个职位。 jobbossspider.py: items.py pipelines输出管道: pipelinemy 阅读全文
posted @ 2018-10-30 16:15 雨轩恋i 阅读(3124) 评论(3) 推荐(0) 编辑
摘要: 仅仅从网上爬下数据当然是不够用的,主要还得对数据进行分析与展示,大部分人都看重薪资,但是薪资数据有的是*k/月,有的是*万/月,还有*万/年等等,就要对数据进行清理 将所有单位统一化,全部换算成统一单位,然后分类薪资范围,在计算各个范围的数量,最后绘图展示 前面写的是数据库的操作函数,其实可以封装成 阅读全文
posted @ 2018-10-23 19:24 雨轩恋i 阅读(3153) 评论(0) 推荐(0) 编辑
摘要: 由于需要在项目中展示数据,查了查资料发现,pyecharts模块在网页数据展示方面有很大优势,所以就学了点pyechas 参考博客:Python:数据可视化pyecharts的使用 - JYRoy - 博客园 http://www.cnblogs.com/jyroy/p/9446486.html p 阅读全文
posted @ 2018-10-15 21:28 雨轩恋i 阅读(3621) 评论(0) 推荐(0) 编辑
摘要: 今日学习了python的词云技术 结果如下:这是没有背景图的词云 接下来这个是爱丽丝漫游小说的词云 用英文做词云很简单,不需要很麻烦的分词技术,用wordcloud模块就可以简单实现 运行结果如下 背景图: 最后是中文词云,中文词云就比较麻烦了,得用到jieba模块的分词技术,还得筛选 运行结果: 阅读全文
posted @ 2018-10-13 09:57 雨轩恋i 阅读(9629) 评论(0) 推荐(0) 编辑
摘要: 闲来无事,做的一个小爬虫项目 爬虫主程序: items设置 输出管道: 保存到本地的管道: setting的设置,往setting.py加入 爬取的最终结果 本来想把这些图片分门分类的保存,然而不太会,所有的图片全保存在一个文件夹下面,,, 阅读全文
posted @ 2018-10-11 16:35 雨轩恋i 阅读(1548) 评论(0) 推荐(0) 编辑
摘要: 基于scrapy框架的爬影评 爬虫主程序: items 对象 pipelines 输出管道 在控制台输出的结果 可以通过爬出的图片链接,下载电影的剧照,这就另说了,也可以设置一个插入数据库的管道,将这些数据插入到数据库中 阅读全文
posted @ 2018-09-29 09:01 雨轩恋i 阅读(1633) 评论(0) 推荐(0) 编辑
摘要: 今天老师讲解了Python中的爬虫框架--scrapy,然后带领我们做了一个小爬虫--爬取51job网的职位信息,并且保存到数据库中 用的是Python3.6 pycharm编辑器 爬虫主体: items.py 设置五个items pipelines.py 输出管道 pipelinesmysql.p 阅读全文
posted @ 2018-09-29 08:36 雨轩恋i 阅读(2099) 评论(0) 推荐(0) 编辑