随笔分类 -  关于Python的学习 / 关于Python爬虫的学习

Python网络爬虫与信息提取
摘要:仅供学习交流研究使用 1. 爬取思路 爬取思路大致相通 获取视频的弹幕api链接 向服务器发起请求 获取服务器返回的响应response 解析html网页,得到想要的信息 保存我们爬取的信息 2. 准备工作 首先,解析哔哩哔哩视频网页: 以为下面链接例 https://www.bilibili.co 阅读全文
posted @ 2022-04-07 09:02 Oraer 阅读(1414) 评论(0) 推荐(0) 编辑
摘要:仅供学习交流研究参考 1. 爬取基本步骤: 发送请求,确定url地址,然后发送请求 获取请求,获取服务器返回的响应数据 解析数据,获取我们想要的数据 保存数据 多页数据爬取 2. 所需爬取页面 爬取时需要user-Agent 字段对爬虫headers进行伪装 从ol入手, CSS选择器 .grid_ 阅读全文
posted @ 2022-04-06 23:38 Oraer 阅读(112) 评论(0) 推荐(0) 编辑
摘要:仅供学习参考,其他用途概不负责 爬取链接:辰东的深空彼岸 https://www.bbiquge.net/book_132488/ 当然也可以爬取其他小说,改一下id就行 book_id字段 https://www.bbiquge.net/book_132488 1. 爬取思路 向服务器发起请求 获 阅读全文
posted @ 2022-04-06 23:36 Oraer 阅读(614) 评论(0) 推荐(0) 编辑
摘要:功能描述 目标:获取淘宝搜索页面的信息,提取其中商品名称和价格 理解:淘宝的搜索接口 遇到的困难 正则表达式的书写 直接爬取cookie值过期,输出结果为空,所以需要header 解决:在所需爬取页面中,按F12, 点击network,刷新页面, 点击出现的search?q=,向下翻可以看见cook 阅读全文
posted @ 2022-02-14 21:37 Oraer 阅读(1103) 评论(1) 推荐(0) 编辑
摘要:慕课 Python网络爬虫与信息提取课程 嵩天 、黄天羽。 第二周,单元六,实例一--爬取最好大学网中国大学排名 由于老师在视频中爬取的是2016年的网页,现在网页源码已经发生了变化,在老师代码的基础上,现给出最新的爬取代码 一、网页分析 爬取链接:最好大学网https://www.shanghai 阅读全文
posted @ 2022-02-11 20:06 Oraer 阅读(1076) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示