随笔分类 -  爬虫

摘要:模块 爬虫主要包含三个部分:抓取、分析、存储。 抓取 1. requests http 请求库,一般来说抓取部分只需要它。 如果需要模拟登录,应该还会用到 hashlib 标准库(密码只传 hash) 2. tesseract 一个传统的 OCR 文字识别库。如果出现了不能绕过的验证码,可用它做验证 阅读全文
posted @ 2018-07-08 10:08 於清樂 阅读(821) 评论(0) 推荐(0) 编辑
摘要:Scrapy 中常用的数据提取方式有三种:Css 选择器、XPath、正则表达式。 Css 选择器 Web 中的 Css 选择器,本来是用于实现在特定 DOM 元素上应用花括号内的样式这样一个功能的。 在爬虫中,我们可以用它来选择提取出需要的内容。Css 有非常丰富的功能,因为我们只用它提取数据,我 阅读全文
posted @ 2018-07-06 11:29 於清樂 阅读(556) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示