摘要: 在之前的学习中了解了如何使用爬虫向目标服务器发送请求并获取响应,而此后便是要对响应进行处理,这里的处理在爬虫中通常指的是数据解析,即将相应内容数据化以方便我们进行有效数据的提取。在此过程中,有许多解析数据的方法,本节介绍利用Xpath和lxml库来解析数据。 Xpath Xpath(全称XML Pa 阅读全文
posted @ 2018-09-16 21:20 ChanKaion 阅读(638) 评论(0) 推荐(0) 编辑
摘要: 在上一篇中学习了urllib库的基本使用,通过它我们可以完成爬虫中发送请求和处理响应的大部分功能,但在实际使用中多少会很繁琐,比如处理Cookie时需要创建handler和opener对象。正因为如此,就有了一个更友好且更强大的库requests,通过它我们也可以完成网页请求和处理,并且比urlli 阅读全文
posted @ 2018-09-16 00:12 ChanKaion 阅读(348) 评论(0) 推荐(0) 编辑