摘要: 上一篇博客写了怎么发请求和获取到数据,接下来就是该怎么处理数据了,打开一个网站之后,它会返回很多数据,数据很多,有很多都是咱们不需要的,咱们写爬虫的话只获取到对咱们自己有用的数据,就要从返回的数据里面找到咱们需要的数据,然后保存起来。那怎么筛选到咱们需要的数据呢,就得用正则表达式了,正则表达就是写各 阅读全文
posted @ 2018-07-03 21:56 A╰无忧╮✨ 阅读(182) 评论(0) 推荐(0) 编辑
摘要: 前面在说爬虫原理的时候说了,就写代码自动化的获取数据,保存下来数据,那怎么写代码来请求一个网址,获取结果呢,就得用requests模块了。 这篇博客说一下requests模块的使用,requests模块是python的一个第三方模块,它是基于python自带的urllib模块封装的,用来发送http 阅读全文
posted @ 2018-07-03 21:40 A╰无忧╮✨ 阅读(200) 评论(0) 推荐(0) 编辑
摘要: 上篇博客里面写了,爬虫就是发http请求(浏览器里面打开发送的都是http请求),然后获取到response,咱们再从response里面找到想要的数据,存储到本地。 咱们本章就来说一下什么是http请求,它里面都有哪些东西,我们在写爬虫的时候,怎么http请求里面哪些对我们的爬虫有影响。 http 阅读全文
posted @ 2018-07-03 21:36 A╰无忧╮✨ 阅读(143) 评论(0) 推荐(0) 编辑
摘要: 什么是爬虫? 爬虫是什么呢,就是地上爬的小虫子,就是爬虫咯。呵呵,开个玩笑,一般说的爬虫都是网络爬虫。那什么是网络爬虫呢,百度百科的解释是这样子的: 网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一 阅读全文
posted @ 2018-07-03 21:32 A╰无忧╮✨ 阅读(283) 评论(1) 推荐(0) 编辑