2019年11月20日

爬虫的正则表达式re模块

摘要: 爬虫一共就四个主要步骤: 对于down下了的数据是全部的网页,这些数据很庞大并且很混乱,大部分的东西无用的,因此需要将过滤和匹配出来。 那么对于文本的过滤或者规则的匹配,最强大的就是正则表达式,是Python爬虫世界里必不可少的神兵利器。 什么是正则表达式 正则表达式,又称规则表达式,通常被用来检索 阅读全文

posted @ 2019-11-20 21:23 LoaderMan 阅读(391) 评论(0) 推荐(0) 编辑

爬虫中Requests模块

摘要: Requests: 让 HTTP 服务人类 虽然Python的标准库中 urllib2 模块已经包含了平常我们使用的大多数功能,但是它的 API 使用起来让人感觉不太好,而 Requests 自称 “HTTP for Humans”,说明使用更简洁方便。 Requests 唯一的一个非转基因的 Py 阅读全文

posted @ 2019-11-20 20:06 LoaderMan 阅读(204) 评论(0) 推荐(0) 编辑

导航