摘要: scrapy入门 四步: 1. 创建一个新的Scrapy Project 2. 定义你需要从网页中提取的元素Item 3. 实现一个Spider类,通过接口完成爬取URL和提取Item的功能 4. 实现一个Item PipeLine类,完成Item的存储功能 新建工程 首先,为我们的爬虫新建一个工程 阅读全文
posted @ 2016-03-29 14:42 shhnwangjian 阅读(2429) 评论(1) 推荐(0) 编辑
摘要: PhantomJS PhantomJS 是一个基于WebKit的服务器端JavaScript API,它无需浏览器的支持即可实现对Web的支持,且原生支持各种Web标准,如DOM 处理、JavaScript、CSS选择器、JSON、Canvas和可缩放矢量图形SVG。PhantomJS主要是通过Ja 阅读全文
posted @ 2016-03-29 14:16 shhnwangjian 阅读(869) 评论(0) 推荐(0) 编辑