摘要: 简单来说,Beautiful Soup是python的一个库,最主要的功能是从网页抓取数据。官方解释如下: ''' Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。 它是一个工具箱,通过解析文档为用户提供需要抓取的数据,因为简单,所以不需要多少代 阅读全文
posted @ 2019-03-27 20:56 chenyibai 阅读(300) 评论(0) 推荐(0) 编辑
摘要: 有不少朋友在开发爬虫的过程中喜欢使用Selenium + Chromedriver,以为这样就能做到不被网站的反爬虫机制发现。 先不说淘宝这种基于用户行为的反爬虫策略,仅仅是一个普通的小网站,使用一行Javascript代码,就能轻轻松松识别你是否使用了Selenium + Chromedriver 阅读全文
posted @ 2019-03-27 20:07 chenyibai 阅读(3224) 评论(1) 推荐(0) 编辑
摘要: 使用selenium模拟浏览器进行数据抓取无疑是当下最通用的数据采集方案,它通吃各种数据加载方式,能够绕过客户JS加密,绕过爬虫检测,绕过签名机制。它的应用,使得许多网站的反采集策略形同虚设。由于selenium不会在HTTP请求数据中留下指纹,因此无法被网站直接识别和拦截。 这是不是就意味着sel 阅读全文
posted @ 2019-03-27 19:55 chenyibai 阅读(5626) 评论(0) 推荐(0) 编辑
摘要: 1.输入式验证码 这种验证码主要是通过用户输入图片中的字母、数字、汉字等进行验证。如下图 图1 图2 解决思路:这种是最简单的一种,只要识别出里面的内容,然后填入到输入框中即可。这种识别技术叫OCR,这里我们推荐使用Python的第三方库,tesserocr。对于没有什么背影影响的验证码如图2,直接 阅读全文
posted @ 2019-03-27 19:44 chenyibai 阅读(3418) 评论(0) 推荐(0) 编辑