摘要: 在使用Scrapy开发爬虫时,通常需要创建一个Scrapy项目。通过如下命令即可创建 Scrapy 项目: scrapy startproject ZhipinSpider 在上面命令中,scrapy 是Scrapy 框架提供的命令;startproject 是 scrapy 的子命令,专门用于创建 阅读全文
posted @ 2019-04-17 23:08 点点花飞谢 阅读(5758) 评论(0) 推荐(0) 编辑
摘要: 除将爬取到的信息写入文件中之外,程序也可通过修改 Pipeline 文件将数据保存到数据库中。为了使用数据库来保存爬取到的信息,在 MySQL 的 python 数据库中执行如下 SQL 语句来创建 job_inf 数据表: 然后将 Pipeline 文件改为如下形式,即可将爬取到的信息保存到 My 阅读全文
posted @ 2019-04-17 23:05 点点花飞谢 阅读(2938) 评论(1) 推荐(0) 编辑
摘要: 爬虫的本质就是“抓取”第二方网站中有价值的数据,因此,每个网站都会或多或少地采用一些反爬虫技术来防范爬虫。比如前面介绍的通过 User-Agent 请求头验证是否为浏览器、使用 JavaScript 动态加载资源等,这些都是常规的反爬虫手段。下面针对更强的反爬虫技术提供一些解决方案。 IP 地址验证 阅读全文
posted @ 2019-04-17 23:00 点点花飞谢 阅读(617) 评论(0) 推荐(0) 编辑
摘要: 对于 BOSS 直聘这种网站,当程序请求网页后,服务器响应内容包含了整个页面的 HTML 源代码,这样就可以使用爬虫来爬取数据。但有些网站做了一些“反爬虫”处理,其网页内容不是静态的,而是使用 JavaScript 动态加载的,此时的爬虫程序也需要做相应的改进。 使用 shell 调试工具分析目标站 阅读全文
posted @ 2019-04-17 22:35 点点花飞谢 阅读(2829) 评论(0) 推荐(0) 编辑