关于Python爬虫的学习 - 随笔分类 - wenshui-blog

bilibili视频弹幕爬取+词云

摘要：仅供学习交流研究使用 1. 爬取思路爬取思路大致相通获取视频的弹幕api链接向服务器发起请求获取服务器返回的响应response 解析html网页，得到想要的信息保存我们爬取的信息 2. 准备工作首先，解析哔哩哔哩视频网页：以为下面链接例 https://www.bilibili.co 阅读全文

posted @ 2022-04-07 09:02 wenshui-blog 阅读(1651) 评论(0) 推荐(0)

豆瓣高分电影爬取

摘要：仅供学习交流研究参考 1. 爬取基本步骤：发送请求，确定url地址，然后发送请求获取请求，获取服务器返回的响应数据解析数据，获取我们想要的数据保存数据多页数据爬取 2. 所需爬取页面爬取时需要user-Agent 字段对爬虫headers进行伪装从ol入手， CSS选择器 .grid_ 阅读全文

posted @ 2022-04-06 23:38 wenshui-blog 阅读(231) 评论(0) 推荐(0)

爬取笔趣阁小说

摘要：仅供学习参考，其他用途概不负责爬取链接：辰东的深空彼岸 https://www.bbiquge.net/book_132488/ 当然也可以爬取其他小说，改一下id就行 book_id字段 https://www.bbiquge.net/book_132488 1. 爬取思路向服务器发起请求获阅读全文

posted @ 2022-04-06 23:36 wenshui-blog 阅读(984) 评论(0) 推荐(0)

python网络爬虫-淘宝商品比价定向爬虫

摘要：功能描述目标：获取淘宝搜索页面的信息，提取其中商品名称和价格理解：淘宝的搜索接口遇到的困难正则表达式的书写直接爬取cookie值过期，输出结果为空，所以需要header 解决：在所需爬取页面中，按F12，点击network，刷新页面，点击出现的search?q=，向下翻可以看见cook 阅读全文

posted @ 2022-02-14 21:37 wenshui-blog 阅读(1305) 评论(1) 推荐(0)

Python网络爬虫与信息提取-中国大学排名（2021年）

摘要：慕课 Python网络爬虫与信息提取课程嵩天、黄天羽。第二周，单元六，实例一--爬取最好大学网中国大学排名由于老师在视频中爬取的是2016年的网页，现在网页源码已经发生了变化，在老师代码的基础上，现给出最新的爬取代码一、网页分析爬取链接：最好大学网https://www.shanghai 阅读全文

posted @ 2022-02-11 20:06 wenshui-blog 阅读(1139) 评论(0) 推荐(0)

wenshui

折腾起来！

随笔分类 - 关于Python的学习 / 关于Python爬虫的学习

公告