随笔分类 - 爬虫基础

学习5：58二手房

摘要：1.几个概念'''聚焦爬虫：爬取页面中的页面内容 --编码流程： -指定url -发起请求 -获取相应数据 -数据解析 -持久化存储数据解析分类： --正则 --bs4 --xpath(重点)数据解析原理概述： --解析的局部文本内容都会在标签之间或者标签对应的属性中进行存储 --1.进行指定标签的阅读全文

posted @ 2022-08-01 12:49 萧六弟阅读(24) 评论(0) 推荐(0) 编辑

学习4：肯德基网页

摘要：页面数据如下： import requestsimport json#1.指定urlurl = 'http://www.kfc.com.cn/kfccda/ashx/GetStoreList.ashx?op=keyword'word = input('enter a word:')param = { 阅读全文

posted @ 2022-07-25 13:02 萧六弟阅读(120) 评论(0) 推荐(0) 编辑

学习3：豆瓣电影

摘要：待抓取页面：编码如下: import requestsimport json#1.指定url url = 'https://movie.douban.com/j/chart/top_list' param = { 'type': '24', 'interval_id': '100:90', 'ac 阅读全文

posted @ 2022-07-25 00:09 萧六弟阅读(17) 评论(0) 推荐(0) 编辑

学习2：百度翻译

摘要：#UA:User-Agent(请求载体的身份识别)#UA监测：门户网站的服务器会监测对应的请求的载体身份标识，若为浏览器则为正常请求，#反之，为不正常请求，服务端可能拒绝该请求。 #UA伪装：让爬虫对应的请求载体身份标识伪装成某一款浏览器 import requestsimport json#1.指阅读全文

posted @ 2022-07-24 15:23 萧六弟阅读(59) 评论(0) 推荐(0) 编辑

学习1：搜狗网页

摘要：1.requests模块：python中原生的一款基于网络请求的模块，功能强大，简单便捷。作用：模拟浏览器发请求 2.如何使用：（requestes编码流程）--指定url--发起请求--获取响应数据--持久化存储 3.环境安装pip install requests 4.实战编码--需求：爬取搜狗阅读全文

posted @ 2022-07-23 19:02 萧六弟阅读(59) 评论(0) 推荐(0) 编辑

公告

昵称：萧六弟
园龄： 2年7个月
粉丝： 0
关注： 0

+加关注

2025年3月

日

一

二

三

四

五

六

戴小帅的学习笔记

随笔分类 - 爬虫基础

公告

搜索

常用链接

随笔分类

随笔档案

阅读排行榜