随笔分类 - 爬虫

Python 爬虫学习路径

摘要：模块爬虫主要包含三个部分：抓取、分析、存储。抓取 1. requests http 请求库，一般来说抓取部分只需要它。如果需要模拟登录，应该还会用到 hashlib 标准库（密码只传 hash） 2. tesseract 一个传统的 OCR 文字识别库。如果出现了不能绕过的验证码，可用它做验证阅读全文

posted @ 2018-07-08 10:08 於清樂阅读(821) 评论(0) 推荐(0) 编辑

Scrapy 学习笔记（一）数据提取

摘要：Scrapy 中常用的数据提取方式有三种：Css 选择器、XPath、正则表达式。 Css 选择器 Web 中的 Css 选择器，本来是用于实现在特定 DOM 元素上应用花括号内的样式这样一个功能的。在爬虫中，我们可以用它来选择提取出需要的内容。Css 有非常丰富的功能，因为我们只用它提取数据，我阅读全文

posted @ 2018-07-06 11:29 於清樂阅读(556) 评论(0) 推荐(0) 编辑

公告

昵称：於清樂
园龄： 8年9个月
粉丝： 70
关注： 33

+加关注

於清樂的碎碎念

独立博客: https://thiscute.world

随笔分类 - 爬虫

公告

我的标签

积分与排名

随笔分类 (288)

随笔档案 (146)

朋友们

我的

阅读排行榜

评论排行榜

推荐排行榜