公告

随笔分类 - Scrapy

摘要：Scrapy的功能强大，爬取效率高，相关扩展组件多，可配置和可拓展程度非常高。基于Twisted的异步处理框架，是纯python实现的爬虫框架，架构清晰，模块之间耦合度低，可扩展型极强，可以灵活完成各种需求。Scrapy架构重要组成：Engine：引擎，处理系统的数据流数据、触发事务，框架核心。It 阅读全文

posted @ 2024-01-03 11:05 五杀摇滚小拉夫阅读(28) 评论(0) 推荐(0)

47.论文网站监控爬虫核心代码

该文被密码保护。

posted @ 2019-04-23 03:59 五杀摇滚小拉夫阅读(12) 评论(0) 推荐(0)

47.论文网站监控采集数据源及功能结构图

摘要：百度云链接：https://pan.baidu.com/s/1NrFwLoOzm2XwnGelRTWdww 提取码：vu43 阅读全文

posted @ 2019-04-23 03:39 五杀摇滚小拉夫阅读(364) 评论(0) 推荐(0)

46.Scrapy框架结构

摘要：Engine：引擎，处理整个系统的数据流处理、触发事务，是整个框架的核心。 Item：项目，定义爬虫结果的数据结构，爬去的数据被赋值为该item对象。 Scheduler：调度器，接受引擎发过来的请求并将其加入队列中，在引擎再次请求时将请求提供给引擎。 Downloader：下载器，下载网页内容，并阅读全文

posted @ 2018-12-25 17:56 五杀摇滚小拉夫阅读(159) 评论(0) 推荐(0)

45.更新一下scrapy爬取工商信息爬虫代码

摘要：这里是完整的工商信息采集代码，不过此程序需要配合代理ip软件使用。问题：1.网站对ip之前没做限制，但是采集了一段时间就被检测到设置了反爬，每个ip只能访问十多次左右就被限制访问。2.网站对请求头的检测识别解决：1.配合代理ip软件（风讯代理）设置自动切换ip时间，执行爬虫程序。2.中间件设置随机user-agent采集结果：正常采集速度一天大概采集1万条数据左右。问题：切换ip会造成程序断网一... 阅读全文

posted @ 2018-11-16 17:50 五杀摇滚小拉夫阅读(4200) 评论(1) 推荐(0)

44.scrapy爬取链家网站二手房信息-2

摘要：{'downloader/exception_count': 199, 'downloader/exception_type_count/twisted.internet.error.NoRouteError': 192, 'downloader/exception_type_count/twist 阅读全文

posted @ 2018-11-12 18:21 五杀摇滚小拉夫阅读(476) 评论(0) 推荐(0)

43.scrapy爬取链家网站二手房信息-1

摘要：首先分析：目的：采集链家网站二手房数据1.先分析一下二手房主界面信息，显示情况如下：url = https://gz.lianjia.com/ershoufang/pg1/显示总数据量为27589套，但是页面只给返回100页的数据，每页30条数据，也就是只给返回3000条数据。 2.再看一下筛选条件的情况：100万以下（775）：https://gz.lianjia.com/ershouf... 阅读全文

posted @ 2018-11-12 11:45 五杀摇滚小拉夫阅读(426) 评论(0) 推荐(0)

42.scrapy爬取数据入库mongodb

摘要：scrapy爬虫采集数据存入mongodb采集效果如图： 1.首先开启服务切换到mongodb的bin目录下命令：mongod --dbpath e:\data\db 另开黑窗口命令：mongo.exe 2.连接可视化工具 studio—3t 建立本地连接如图： 3.代码如下采集的是玻璃网站产品数据 http://www.boliwang.co... 阅读全文

posted @ 2018-10-25 12:34 五杀摇滚小拉夫阅读(629) 评论(0) 推荐(0)

41.配置完善爬虫代码文件及图片下载文件重命名问题-2

摘要：解决图片下载重命名保存本地,直接上代码（在原来代码做了一定的修改）。总结：主要就是添加配置一个内置的函数，对保存的东西进行修改再存储，主要问题还是再piplines的设置里面。效果如图： hm5988.py # -*- coding: utf-8 -*- import scrapy from hm5988_web.items import Hm5988WebItem class Hm... 阅读全文

posted @ 2018-10-24 11:40 五杀摇滚小拉夫阅读(476) 评论(0) 推荐(0)

40.配置完善爬虫代码文件及图片下载文件重命名问题-1

摘要：这里是直接拿之前未配置代码做修改，主要问题就是在piplines中添加修改配置文件(先解决文件下载问题，图片其实也类似) 效果如图：北京造价信息网站爬虫 bjjs.py # -*- coding: utf-8 -*- import scrapy import re from bjjs_web.items import BjjsWebItem class BjjsSpider(scr... 阅读全文

posted @ 2018-10-24 11:32 五杀摇滚小拉夫阅读(576) 评论(0) 推荐(0)

39.爬虫管理模块总结

摘要：—————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————— 阅读全文

posted @ 2018-10-23 14:24 五杀摇滚小拉夫阅读(277) 评论(0) 推荐(0)

38.spiderkeeper的配置

摘要：配置spiderkeeper管理scrapy爬虫 1.安装所需文件包pip install spiderkeeper pip install scrapyd pip install scrapy_client 2.切换到scrapy文件目录下打包文件(生蛋)。 3.开启scrapyd服务，开启spiderkeeper服务。 4.进入127.0.0.1:5000 输入默认账号... 阅读全文

posted @ 2018-10-23 11:31 五杀摇滚小拉夫阅读(593) 评论(0) 推荐(0)

37.scrapy解决翻页及采集杭州造价网站材料数据

摘要：1.目标采集地址: http://183.129.219.195:8081/bs/hzzjb/web/list2.这里的翻页还是较为简单的，只要模拟post请求发送data包含关键参数就能获取下一页页面信息。获取页面标签信息的方法不合适，是之前写的，应该用xpath匹配整个table数据获取父类选择器再去二次匹配子类标签数据。3.采集结果如下： #hzzjb.py # -*- coding... 阅读全文

posted @ 2018-10-19 09:43 五杀摇滚小拉夫阅读(445) 评论(0) 推荐(0)

36.scrapy框架采集全球玻璃网数据

摘要：1.采集目标地址 https://www.glass.cn/gongying/sellindex.aspx 网站比较简单，没什么大的需要注意的问题。2.通过分析测试 https://www.glass.cn/gongying/a_l_p1_ky/ 等价于目标采集网站首页，只需设置{}.format 翻页这个完整比较简单，就是获取一下页码，再做一下翻页，循环采集页面跳转url，再进入url采集页... 阅读全文

posted @ 2018-10-18 15:35 五杀摇滚小拉夫阅读(346) 评论(1) 推荐(0)

34.scrapy解决爬虫翻页问题

摘要：scrapy crawl nbzj 执行结果如下由于设置deloy为 1s 所以速度会比较慢，采集237142条数据。阅读全文

posted @ 2018-09-26 13:58 五杀摇滚小拉夫阅读(2414) 评论(1) 推荐(0)

33.scrapy采集网站表单数据

摘要：这几天一直都再用scrapy写网站数据采集的爬虫，这里我就选一个写过的爬虫来记录一下。杭州造价网：http://183.129.219.195:8081/bs/hzzjb/web/list这里出现的主要问题就是：1. 这里我的代码会出现一些问题，内存溢出，由于程序一直在运行，内存一直在增加（未释放内存，有待改进），就会导致爬虫程序假死等待。2. yield scrapy.FormRequest(... 阅读全文

posted @ 2018-09-25 17:15 五杀摇滚小拉夫阅读(365) 评论(0) 推荐(0)

32.网站数据监控邮件通知

摘要：邮件通知这一部分是我们组大佬写的，主要是为了解决人工去检查网站是否更新的问题做到自动化通知，那个邮件通知的代码，我之前也没写过，过两天看一下代码是如何实现的再写随笔。阅读全文

posted @ 2018-09-25 16:55 五杀摇滚小拉夫阅读(172) 评论(0) 推荐(0)

31.网站数据监控-2（scrapy文件下载）

摘要：温州数据采集这里采集网站数据是下载pdf：http://wzszjw.wenzhou.gov.cn/col/col1357901/index.html（涉及的问题就是scrapy 文件的下载设置，之前没用scrapy下载文件，所以弄了很久才弄好，网上很多不过写的都不完善。）主要重点就是设置： 1.piplines.py 文件下载代码这部分可以直接拿来用不需要修改。2.就是下载文件的url要... 阅读全文

posted @ 2018-09-25 16:50 五杀摇滚小拉夫阅读(221) 评论(0) 推荐(0)

31.网站数据监控-1

摘要：网站数据监控：思路：对网站数据字段监控并做MD5加密存入到数据，为了后期监控数据是否更新作比对，然后邮件通知，存入四个字段。引入的包：md5_tools.py # -*- coding:utf-8 -*-import hashlib# md5 加密def md5_encode(md5): md5 = md5 hash = hashlib.md5() hash.update(... 阅读全文

posted @ 2018-09-25 16:24 五杀摇滚小拉夫阅读(181) 评论(0) 推荐(0)

30.Scrapy 对接 Selenium

摘要：Scrapy 对接 Selenium（参考代码网址，https://github.com/Python3WebSpider/ScrapySeleniumTest）此文就是参考书上的代码拿下来跑，作为借鉴，很多地方都不是很理解，也是我第一次使用mongodb入库数据，一直用的都是mysql对mongodb这种关系型数据库用的并不多，今天就是拿代码跑一下理解作者的整个思路有待消化。主要核心： Do... 阅读全文

posted @ 2018-09-18 17:33 五杀摇滚小拉夫阅读(807) 评论(0) 推荐(0)