随笔分类 -  python爬虫学习

摘要:我们在上一节最后讲到了,在一个ip下重复向一个URL发送请求,会被封ip,这时候就要用到代理ip了。方法很简单,就是随便找一个ip代理的网站,很多免费的也可以,就是要注意类型,如果我们要爬取的url是https的要找对应的类型。 比方我们从站长之家上爬一下本机的IP import requests 阅读全文
posted @ 2021-03-01 21:42 银色的音色 阅读(137) 评论(0) 推荐(0) 编辑
摘要:我们在上一章讲了最直接的索引方法——正则,今天今天讲一个稍微好用一点的数据解析的方法:beautifulsoup4。bs4是在python中独有的一种解析方式,而前面所讲的正则的解析方法,顾名思义,是基于正则表达式的,所以是不限制编程语言的。 通过bs4进行数据解析的流程 按照前面讲过的数据解析原理 阅读全文
posted @ 2021-02-21 01:30 银色的音色 阅读(2276) 评论(0) 推荐(0) 编辑
摘要:我们前面的爬虫基本上都是通用爬虫,下面我们要讲到的是聚焦爬虫。聚焦爬虫得实现就要求我们在数据持久化前对指定的数据进行解析。聚焦爬虫用于爬取页面中指定部分的数据,而不是整个数据。隐藏我们就需要对爬到底数据按照一定方式解析。我们一般用下面三种方法实现数据解析。 正则解析 beautifulsoup xp 阅读全文
posted @ 2021-02-15 01:08 银色的音色 阅读(113) 评论(0) 推荐(0) 编辑
摘要:我们在前面一章做了一个稍微复杂的爬虫,这里我们再另外一个爬虫 需求分析 现在我们要从下面的网站(国家药品监督管理局)爬取到所有的企业名称和其对应的生产许可证信息 官网地址:http://scxk.nmpa.gov.cn:81/xk/ 上面的图就是主页的效果,注意一下一共是365页,美业是15条信息 阅读全文
posted @ 2021-01-26 13:29 银色的音色 阅读(439) 评论(0) 推荐(0) 编辑
摘要:我们在前面学习了怎么写一个简单的爬虫,现在我们做一个比较复杂的爬虫——爬取KFC指定城市的门店信息。 需求分析 爬取KFC官网上指定城市的餐厅信息 网址:http://www.kfc.com.cn/kfccda/storelist/index.asp页面效果如下 如果我们要查询西安市的KFC所有门店 阅读全文
posted @ 2021-01-25 12:57 银色的音色 阅读(375) 评论(0) 推荐(0) 编辑
摘要:下面,我们从几个简单的爬虫开始我们的爬虫之旅 通用爬虫 我们先来做一个通用的爬虫,作用是爬取一个搜索引擎的搜索结论。比方说用搜狗搜一下python这个关键字,注意看一下url: 可以看出来这是个GET请求,参数可以直接看出来,也可以通过浏览器的抓包工具看一下 上面的图里大概演示了从哪里找到抓包工具, 阅读全文
posted @ 2021-01-13 23:25 银色的音色 阅读(205) 评论(0) 推荐(0) 编辑
摘要:爬虫定义 爬虫是一段代码,用来模仿浏览器访问网站的过程,可以从服务器上获取数据。 爬虫分类 按照常规的分类,爬虫可以分为下面几种 通用爬虫——抓取系统的重要组成部分,用来抓取一整面的数据 聚焦爬虫——建立在通用爬虫的基础上,抓取页面中的局部数据 增量式爬虫——用来抓取定期更新的数据 爬虫的矛与盾 反 阅读全文
posted @ 2020-10-02 23:27 银色的音色 阅读(229) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示