随笔分类 -  scrapy

摘要:随机UA https://github.com/hellysmile/fake-useragent DOWNLOADER_MIDDLEWARES增加自定义 备注:settings.py增加配置项 RANDOM_UA_TYPE = "random" 动态IP 1、通过免费的代理IP,如西刺,自己获取I 阅读全文
posted @ 2017-08-10 14:52 shhnwangjian 阅读(1700) 评论(0) 推荐(0) 编辑
摘要:scrapy xpath XPath即为XML路径语言,它是一种用来确定XML(标准通用标记语言的子集)文档中某部分位置的语言。XPath基于XML的树状结构,提供在数据结构树中找寻节点的能力。 学习参考博文:http://www.ruanyifeng.com/blog/2009/07/xpath_ 阅读全文
posted @ 2017-08-03 09:45 shhnwangjian 阅读(2559) 评论(0) 推荐(0) 编辑
摘要:scrapy入门 四步: 1. 创建一个新的Scrapy Project 2. 定义你需要从网页中提取的元素Item 3. 实现一个Spider类,通过接口完成爬取URL和提取Item的功能 4. 实现一个Item PipeLine类,完成Item的存储功能 新建工程 首先,为我们的爬虫新建一个工程 阅读全文
posted @ 2016-03-29 14:42 shhnwangjian 阅读(2492) 评论(1) 推荐(0) 编辑
摘要:PhantomJS PhantomJS 是一个基于WebKit的服务器端JavaScript API,它无需浏览器的支持即可实现对Web的支持,且原生支持各种Web标准,如DOM 处理、JavaScript、CSS选择器、JSON、Canvas和可缩放矢量图形SVG。PhantomJS主要是通过Ja 阅读全文
posted @ 2016-03-29 14:16 shhnwangjian 阅读(880) 评论(0) 推荐(0) 编辑
摘要:python Scrapy安装和介绍 Windows7下安装 1、执行easy_install Scrapy Centos6.5下安装 1、库文件安装yum install libxslt-devel libxml2-devel 2、将系统自带python2.6的easy_install备份,使用p 阅读全文
posted @ 2016-03-04 10:07 shhnwangjian 阅读(418) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示