五杀摇滚小拉夫

  博客园  :: 首页  :: 新随笔  :: 联系 :: 订阅 订阅  :: 管理
  188 随笔 :: 0 文章 :: 19 评论 :: 99707 阅读

随笔分类 -  Scrapy

摘要:Scrapy的功能强大,爬取效率高,相关扩展组件多,可配置和可拓展程度非常高。基于Twisted的异步处理框架,是纯python实现的爬虫框架,架构清晰,模块之间耦合度低,可扩展型极强,可以灵活完成各种需求。Scrapy架构重要组成:Engine:引擎,处理系统的数据流数据、触发事务,框架核心。It 阅读全文
posted @ 2024-01-03 11:05 五杀摇滚小拉夫 阅读(13) 评论(0) 推荐(0) 编辑

该文被密码保护。
posted @ 2019-04-23 03:59 五杀摇滚小拉夫 阅读(12) 评论(0) 推荐(0) 编辑

摘要:百度云链接:https://pan.baidu.com/s/1NrFwLoOzm2XwnGelRTWdww 提取码:vu43 阅读全文
posted @ 2019-04-23 03:39 五杀摇滚小拉夫 阅读(337) 评论(0) 推荐(0) 编辑

摘要:Engine:引擎,处理整个系统的数据流处理、触发事务,是整个框架的核心。 Item:项目,定义爬虫结果的数据结构,爬去的数据被赋值为该item对象。 Scheduler:调度器,接受引擎发过来的请求并将其加入队列中,在引擎再次请求时将请求提供给引擎。 Downloader:下载器,下载网页内容,并 阅读全文
posted @ 2018-12-25 17:56 五杀摇滚小拉夫 阅读(151) 评论(0) 推荐(0) 编辑

摘要:这里是完整的工商信息采集代码,不过此程序需要配合代理ip软件使用。问题:1.网站对ip之前没做限制,但是采集了一段时间就被检测到设置了反爬,每个ip只能访问十多次左右就被限制访问。2.网站对请求头的检测识别解决:1.配合代理ip软件(风讯代理)设置自动切换ip时间,执行爬虫程序。2.中间件设置随机user-agent采集结果:正常采集速度一天大概采集1万条数据左右。问题:切换ip会造成程序断网一... 阅读全文
posted @ 2018-11-16 17:50 五杀摇滚小拉夫 阅读(4084) 评论(1) 推荐(0) 编辑

摘要:{'downloader/exception_count': 199, 'downloader/exception_type_count/twisted.internet.error.NoRouteError': 192, 'downloader/exception_type_count/twist 阅读全文
posted @ 2018-11-12 18:21 五杀摇滚小拉夫 阅读(455) 评论(0) 推荐(0) 编辑

摘要:首先分析:目的:采集链家网站二手房数据1.先分析一下二手房主界面信息,显示情况如下:url = https://gz.lianjia.com/ershoufang/pg1/显示总数据量为27589套,但是页面只给返回100页的数据,每页30条数据,也就是只给返回3000条数据。 2.再看一下筛选条件的情况:100万以下(775):https://gz.lianjia.com/ershouf... 阅读全文
posted @ 2018-11-12 11:45 五杀摇滚小拉夫 阅读(399) 评论(0) 推荐(0) 编辑

摘要:scrapy爬虫采集数据存入mongodb采集效果如图: 1.首先开启服务切换到mongodb的bin目录下 命令:mongod --dbpath e:\data\db 另开黑窗口 命令:mongo.exe 2.连接可视化工具 studio—3t 建立本地连接 如图: 3.代码如下 采集的是玻璃网站产品数据 http://www.boliwang.co... 阅读全文
posted @ 2018-10-25 12:34 五杀摇滚小拉夫 阅读(605) 评论(0) 推荐(0) 编辑

摘要:解决图片下载重命名保存本地,直接上代码(在原来代码做了一定的修改)。总结:主要就是添加配置一个内置的函数,对保存的东西进行修改再存储,主要问题还是再piplines的设置里面。效果如图: hm5988.py # -*- coding: utf-8 -*- import scrapy from hm5988_web.items import Hm5988WebItem class Hm... 阅读全文
posted @ 2018-10-24 11:40 五杀摇滚小拉夫 阅读(466) 评论(0) 推荐(0) 编辑

摘要:这里是直接拿之前未配置代码做修改,主要问题就是在piplines中添加修改配置文件(先解决文件下载问题,图片其实也类似) 效果如图: 北京造价信息网站爬虫 bjjs.py # -*- coding: utf-8 -*- import scrapy import re from bjjs_web.items import BjjsWebItem class BjjsSpider(scr... 阅读全文
posted @ 2018-10-24 11:32 五杀摇滚小拉夫 阅读(561) 评论(0) 推荐(0) 编辑

摘要:—————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————— 阅读全文
posted @ 2018-10-23 14:24 五杀摇滚小拉夫 阅读(267) 评论(0) 推荐(0) 编辑

摘要:配置spiderkeeper管理scrapy爬虫 1.安装所需文件包pip install spiderkeeper pip install scrapyd pip install scrapy_client 2.切换到scrapy文件目录下打包文件(生蛋)。 3.开启scrapyd服务,开启spiderkeeper服务。 4.进入127.0.0.1:5000 输入默认账号... 阅读全文
posted @ 2018-10-23 11:31 五杀摇滚小拉夫 阅读(580) 评论(0) 推荐(0) 编辑

摘要:1.目标采集地址: http://183.129.219.195:8081/bs/hzzjb/web/list2.这里的翻页还是较为简单的,只要模拟post请求发送data包含关键参数就能获取下一页页面信息。获取页面标签信息的方法不合适,是之前写的,应该用xpath匹配整个table数据获取父类选择器再去二次匹配子类标签数据。3.采集结果如下: #hzzjb.py # -*- coding... 阅读全文
posted @ 2018-10-19 09:43 五杀摇滚小拉夫 阅读(421) 评论(0) 推荐(0) 编辑

摘要:1.采集目标地址 https://www.glass.cn/gongying/sellindex.aspx 网站比较简单,没什么大的需要注意的问题。2.通过分析测试 https://www.glass.cn/gongying/a_l_p1_ky/ 等价于目标采集网站首页,只需设置{}.format 翻页这个完整比较简单,就是获取一下页码,再做一下翻页,循环采集页面跳转url,再进入url采集页... 阅读全文
posted @ 2018-10-18 15:35 五杀摇滚小拉夫 阅读(329) 评论(1) 推荐(0) 编辑

摘要:scrapy crawl nbzj 执行结果如下 由于设置deloy为 1s 所以速度会比较慢,采集237142条数据。 阅读全文
posted @ 2018-09-26 13:58 五杀摇滚小拉夫 阅读(2370) 评论(1) 推荐(0) 编辑

摘要:这几天一直都再用scrapy写网站数据采集的爬虫,这里我就选一个写过的爬虫来记录一下。杭州造价网:http://183.129.219.195:8081/bs/hzzjb/web/list这里出现的主要问题就是:1. 这里我的代码会出现一些问题,内存溢出,由于程序一直在运行,内存一直在增加(未释放内存,有待改进),就会导致爬虫程序假死等待。2. yield scrapy.FormRequest(... 阅读全文
posted @ 2018-09-25 17:15 五杀摇滚小拉夫 阅读(352) 评论(0) 推荐(0) 编辑

摘要:邮件通知这一部分是我们组大佬写的,主要是为了解决人工去检查网站是否更新的问题做到自动化通知,那个邮件通知的代码,我之前也没写过,过两天看一下代码是如何实现的再写随笔。 阅读全文
posted @ 2018-09-25 16:55 五杀摇滚小拉夫 阅读(164) 评论(0) 推荐(0) 编辑

摘要:温州数据采集这里采集网站数据是下载pdf:http://wzszjw.wenzhou.gov.cn/col/col1357901/index.html(涉及的问题就是scrapy 文件的下载设置,之前没用scrapy下载文件,所以弄了很久才弄好,网上很多不过写的都不完善。)主要重点就是设置: 1.piplines.py 文件下载代码 这部分可以直接拿来用不需要修改。2.就是下载文件的url要... 阅读全文
posted @ 2018-09-25 16:50 五杀摇滚小拉夫 阅读(210) 评论(0) 推荐(0) 编辑

摘要:网站数据监控:思路:对网站数据字段监控并做MD5加密存入到数据,为了后期监控数据是否更新作比对,然后邮件通知,存入四个字段。 引入的包:md5_tools.py # -*- coding:utf-8 -*-import hashlib# md5 加密def md5_encode(md5): md5 = md5 hash = hashlib.md5() hash.update(... 阅读全文
posted @ 2018-09-25 16:24 五杀摇滚小拉夫 阅读(169) 评论(0) 推荐(0) 编辑

摘要:Scrapy 对接 Selenium(参考代码网址,https://github.com/Python3WebSpider/ScrapySeleniumTest) 此文就是参考书上的代码拿下来跑,作为借鉴,很多地方都不是很理解,也是我第一次使用mongodb入库数据,一直用的都是mysql对mongodb这种关系型数据库用的并不多,今天就是拿代码跑一下理解作者的整个思路有待消化。主要核心: Do... 阅读全文
posted @ 2018-09-18 17:33 五杀摇滚小拉夫 阅读(802) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示