爬虫 - 随笔分类 - Hider1214

爬虫学习笔记：酷狗音乐榜单TOP500

摘要：一、背景酷狗音乐热门榜单-酷狗TOP500（网页版）链接为： # 链接 https://www.kugou.com/yy/rank/home/1-8888.html?from=rank # 网页版并无下一页只能通过自己构造链接实现 # 经发现 2-8888 3-8888 替换即可二、实操 1. 阅读全文

posted @ 2022-01-16 00:38 Hider1214 阅读(955) 评论(0) 推荐(0)

爬虫学习笔记：打造自己的代理池

摘要：# -*- coding: utf-8 -*- """ Created on Sat Dec 18 00:00:59 2021 @author: Hider """ import requests import parsel import time import pandas as pd heade 阅读全文

posted @ 2022-01-08 23:48 Hider1214 阅读(78) 评论(0) 推荐(0)

爬虫学习笔记：微信公众号文章图片下载

摘要：一、背景知识最近看微信公众号，发现很多有趣的图片，又不想一一保存，遂产生通过 python 爬虫的方式直接一次性解析保存。在此过程中，使用到re、requests、os、bs4.BeautifulSoup、time、PIL 等多个库，算是综合使用了一下。有所收获。二、整体思路分析网页源代码阅读全文

posted @ 2022-01-03 23:55 Hider1214 阅读(1113) 评论(0) 推荐(0)

爬虫学习笔记：创建随机User-Agent池

摘要：一、背景介绍 User-Agent 即用户代理，简称 UA 。它是一个特殊字符串，使得服务器能够识别客户使用的操作系统及版本、CPU类型、浏览器版本、浏览器渲染引擎、浏览器语言、浏览器插件等。具备反爬措施的网站，通过判断 UA 的合理性，来响应请求，判断请求是否合法。 UA 的标准格式为：浏览阅读全文

posted @ 2021-12-12 12:35 Hider1214 阅读(3570) 评论(2) 推荐(0)

爬虫学习笔记：8684公交路线

摘要：SHOW ME THE CODE!!! 首先进行网页分析，具体操作：省略。 # -*- coding: utf-8 -*- """ Created on Fri Dec 10 16:25:59 2021 @author: Hider """ # 爬虫学习：8684公交路线 # 网站：https:// 阅读全文

posted @ 2021-12-12 01:01 Hider1214 阅读(390) 评论(0) 推荐(0)

爬虫学习笔记：Chrome开发者工具

摘要：如何通过Chrome开发者工具寻找一个网站上特定数据的爬取方式。一、查看网页源代码在网页上右键，选择查看网页源代码（Ctrl+U），可显示URL对应的HTML代码文本。内容与通过代码向URL发送GET请求所得到的结果一致。通过正则表达式、bs4、xpath等方式可以在文本内容中搜索需要的数阅读全文

posted @ 2021-12-01 10:09 Hider1214 阅读(588) 评论(0) 推荐(0)

Hider1214

随笔分类 - 爬虫

公告