2019 年 4月 17 日随笔档案 - 点点花飞谢

2019年4月17日

摘要：在使用Scrapy开发爬虫时，通常需要创建一个Scrapy项目。通过如下命令即可创建 Scrapy 项目： scrapy startproject ZhipinSpider 在上面命令中，scrapy 是Scrapy 框架提供的命令；startproject 是 scrapy 的子命令，专门用于创建阅读全文

posted @ 2019-04-17 23:08 点点花飞谢阅读(5788) 评论(0) 推荐(0) 编辑

Python scrapy爬虫数据保存到MySQL数据库

摘要：除将爬取到的信息写入文件中之外，程序也可通过修改 Pipeline 文件将数据保存到数据库中。为了使用数据库来保存爬取到的信息，在 MySQL 的 python 数据库中执行如下 SQL 语句来创建 job_inf 数据表：然后将 Pipeline 文件改为如下形式，即可将爬取到的信息保存到 My 阅读全文

posted @ 2019-04-17 23:05 点点花飞谢阅读(2957) 评论(1) 推荐(0) 编辑

Python Scrapy反爬虫常见解决方案（包含5种方法）

摘要：爬虫的本质就是“抓取”第二方网站中有价值的数据，因此，每个网站都会或多或少地采用一些反爬虫技术来防范爬虫。比如前面介绍的通过 User-Agent 请求头验证是否为浏览器、使用 JavaScript 动态加载资源等，这些都是常规的反爬虫手段。下面针对更强的反爬虫技术提供一些解决方案。 IP 地址验证阅读全文

posted @ 2019-04-17 23:00 点点花飞谢阅读(920) 评论(0) 推荐(0) 编辑

Python Scrapy突破反爬虫机制（项目实践）

摘要：对于 BOSS 直聘这种网站，当程序请求网页后，服务器响应内容包含了整个页面的 HTML 源代码，这样就可以使用爬虫来爬取数据。但有些网站做了一些“反爬虫”处理，其网页内容不是静态的，而是使用 JavaScript 动态加载的，此时的爬虫程序也需要做相应的改进。使用 shell 调试工具分析目标站阅读全文

posted @ 2019-04-17 22:35 点点花飞谢阅读(2863) 评论(0) 推荐(0) 编辑

公告