随笔分类 -  爬虫基础

摘要:1.几个概念'''聚焦爬虫:爬取页面中的页面内容 --编码流程: -指定url -发起请求 -获取相应数据 -数据解析 -持久化存储数据解析分类: --正则 --bs4 --xpath(重点)数据解析原理概述: --解析的局部文本内容都会在标签之间或者标签对应的属性中进行存储 --1.进行指定标签的 阅读全文
posted @ 2022-08-01 12:49 萧六弟 阅读(24) 评论(0) 推荐(0) 编辑
摘要:页面数据如下: import requestsimport json#1.指定urlurl = 'http://www.kfc.com.cn/kfccda/ashx/GetStoreList.ashx?op=keyword'word = input('enter a word:')param = { 阅读全文
posted @ 2022-07-25 13:02 萧六弟 阅读(120) 评论(0) 推荐(0) 编辑
摘要:待抓取页面: 编码如下: import requestsimport json#1.指定url url = 'https://movie.douban.com/j/chart/top_list' param = { 'type': '24', 'interval_id': '100:90', 'ac 阅读全文
posted @ 2022-07-25 00:09 萧六弟 阅读(17) 评论(0) 推荐(0) 编辑
摘要:#UA:User-Agent(请求载体的身份识别)#UA监测:门户网站的服务器会监测对应的请求的载体身份标识,若为浏览器则为正常请求,#反之,为不正常请求,服务端可能拒绝该请求。 #UA伪装:让爬虫对应的请求载体身份标识伪装成某一款浏览器 import requestsimport json#1.指 阅读全文
posted @ 2022-07-24 15:23 萧六弟 阅读(59) 评论(0) 推荐(0) 编辑
摘要:1.requests模块:python中原生的一款基于网络请求的模块,功能强大,简单便捷。作用:模拟浏览器发请求 2.如何使用:(requestes编码流程)--指定url--发起请求--获取响应数据--持久化存储 3.环境安装pip install requests 4.实战编码--需求:爬取搜狗 阅读全文
posted @ 2022-07-23 19:02 萧六弟 阅读(59) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示