五杀摇滚小拉夫

公告

2018年10月18日

摘要： 1.采集目标地址 https://www.glass.cn/gongying/sellindex.aspx 网站比较简单，没什么大的需要注意的问题。2.通过分析测试 https://www.glass.cn/gongying/a_l_p1_ky/ 等价于目标采集网站首页，只需设置{}.format 翻页这个完整比较简单，就是获取一下页码，再做一下翻页，循环采集页面跳转url，再进入url采集页... 阅读全文

posted @ 2018-10-18 15:35 五杀摇滚小拉夫阅读(327) 评论(1) 推荐(0) 编辑

2018年9月27日

16.Ubuntu安装mysql及win7安装mysql

摘要：链接 Navicat 阅读全文

posted @ 2018-09-27 17:47 五杀摇滚小拉夫阅读(220) 评论(0) 推荐(0) 编辑

15.unbuntu下安装vmware-tools

摘要：链接地址：https://blog.csdn.net/yuanxiang01/article/details/78787823 阅读全文

posted @ 2018-09-27 17:38 五杀摇滚小拉夫阅读(212) 评论(0) 推荐(0) 编辑

2018年9月26日

14.json文件读取

摘要：执行结果如图：运行结果如图：执行结果如图：阅读全文

posted @ 2018-09-26 18:21 五杀摇滚小拉夫阅读(133) 评论(0) 推荐(0) 编辑

34.scrapy解决爬虫翻页问题

摘要： scrapy crawl nbzj 执行结果如下由于设置deloy为 1s 所以速度会比较慢，采集237142条数据。阅读全文

posted @ 2018-09-26 13:58 五杀摇滚小拉夫阅读(2321) 评论(1) 推荐(0) 编辑

2018年9月25日

33.scrapy采集网站表单数据

摘要：这几天一直都再用scrapy写网站数据采集的爬虫，这里我就选一个写过的爬虫来记录一下。杭州造价网：http://183.129.219.195:8081/bs/hzzjb/web/list这里出现的主要问题就是：1. 这里我的代码会出现一些问题，内存溢出，由于程序一直在运行，内存一直在增加（未释放内存，有待改进），就会导致爬虫程序假死等待。2. yield scrapy.FormRequest(... 阅读全文

posted @ 2018-09-25 17:15 五杀摇滚小拉夫阅读(347) 评论(0) 推荐(0) 编辑

32.网站数据监控邮件通知

摘要：邮件通知这一部分是我们组大佬写的，主要是为了解决人工去检查网站是否更新的问题做到自动化通知，那个邮件通知的代码，我之前也没写过，过两天看一下代码是如何实现的再写随笔。阅读全文

posted @ 2018-09-25 16:55 五杀摇滚小拉夫阅读(163) 评论(0) 推荐(0) 编辑

31.网站数据监控-2（scrapy文件下载）

摘要：温州数据采集这里采集网站数据是下载pdf：http://wzszjw.wenzhou.gov.cn/col/col1357901/index.html（涉及的问题就是scrapy 文件的下载设置，之前没用scrapy下载文件，所以弄了很久才弄好，网上很多不过写的都不完善。）主要重点就是设置： 1.piplines.py 文件下载代码这部分可以直接拿来用不需要修改。2.就是下载文件的url要... 阅读全文

posted @ 2018-09-25 16:50 五杀摇滚小拉夫阅读(207) 评论(0) 推荐(0) 编辑

31.网站数据监控-1

摘要：网站数据监控：思路：对网站数据字段监控并做MD5加密存入到数据，为了后期监控数据是否更新作比对，然后邮件通知，存入四个字段。引入的包：md5_tools.py # -*- coding:utf-8 -*-import hashlib# md5 加密def md5_encode(md5): md5 = md5 hash = hashlib.md5() hash.update(... 阅读全文

posted @ 2018-09-25 16:24 五杀摇滚小拉夫阅读(166) 评论(0) 推荐(0) 编辑

2018年9月18日

30.Scrapy 对接 Selenium

摘要： Scrapy 对接 Selenium（参考代码网址，https://github.com/Python3WebSpider/ScrapySeleniumTest）此文就是参考书上的代码拿下来跑，作为借鉴，很多地方都不是很理解，也是我第一次使用mongodb入库数据，一直用的都是mysql对mongodb这种关系型数据库用的并不多，今天就是拿代码跑一下理解作者的整个思路有待消化。主要核心： Do... 阅读全文

posted @ 2018-09-18 17:33 五杀摇滚小拉夫阅读(765) 评论(0) 推荐(0) 编辑