2018 年 7月 3 日随笔档案 - A╰无忧╮✨

2018年7月3日

摘要：上一篇博客写了怎么发请求和获取到数据，接下来就是该怎么处理数据了，打开一个网站之后，它会返回很多数据，数据很多，有很多都是咱们不需要的，咱们写爬虫的话只获取到对咱们自己有用的数据，就要从返回的数据里面找到咱们需要的数据，然后保存起来。那怎么筛选到咱们需要的数据呢，就得用正则表达式了，正则表达就是写各阅读全文

posted @ 2018-07-03 21:56 A╰无忧╮✨ 阅读(182) 评论(0) 推荐(0) 编辑

爬虫学习笔记（三）requests模块使用

摘要：前面在说爬虫原理的时候说了，就写代码自动化的获取数据，保存下来数据，那怎么写代码来请求一个网址，获取结果呢，就得用requests模块了。这篇博客说一下requests模块的使用，requests模块是python的一个第三方模块，它是基于python自带的urllib模块封装的，用来发送http 阅读全文

posted @ 2018-07-03 21:40 A╰无忧╮✨ 阅读(200) 评论(0) 推荐(0) 编辑

爬虫学习笔记（二）http请求详解

摘要：上篇博客里面写了，爬虫就是发http请求（浏览器里面打开发送的都是http请求），然后获取到response，咱们再从response里面找到想要的数据，存储到本地。咱们本章就来说一下什么是http请求，它里面都有哪些东西，我们在写爬虫的时候，怎么http请求里面哪些对我们的爬虫有影响。 http 阅读全文

posted @ 2018-07-03 21:36 A╰无忧╮✨ 阅读(143) 评论(0) 推荐(0) 编辑

爬虫学习笔记（一）初识爬虫

摘要：什么是爬虫？爬虫是什么呢，就是地上爬的小虫子，就是爬虫咯。呵呵，开个玩笑，一般说的爬虫都是网络爬虫。那什么是网络爬虫呢，百度百科的解释是这样子的：网络爬虫（又被称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。另外一阅读全文

posted @ 2018-07-03 21:32 A╰无忧╮✨ 阅读(283) 评论(1) 推荐(0) 编辑

陈海坤的博客

十步杀一人，千里不留行；事了拂衣去，深藏身与名。

公告