随笔分类 - 爬虫
摘要:一、背景 酷狗音乐热门榜单-酷狗TOP500(网页版)链接为: # 链接 https://www.kugou.com/yy/rank/home/1-8888.html?from=rank # 网页版并无下一页 只能通过自己构造链接实现 # 经发现 2-8888 3-8888 替换即可 二、实操 1.
阅读全文
摘要:# -*- coding: utf-8 -*- """ Created on Sat Dec 18 00:00:59 2021 @author: Hider """ import requests import parsel import time import pandas as pd heade
阅读全文
摘要:一、背景知识 最近看微信公众号,发现很多有趣的图片,又不想一一保存,遂产生通过 python 爬虫的方式直接一次性解析保存。 在此过程中,使用到re、requests、os、bs4.BeautifulSoup、time、PIL 等多个库,算是综合使用了一下。 有所收获。 二、整体思路 分析网页源代码
阅读全文
摘要:一、背景介绍 User-Agent 即用户代理,简称 UA 。 它是一个特殊字符串,使得服务器能够识别客户使用的操作系统及版本、CPU类型、浏览器版本、浏览器渲染引擎、浏览器语言、浏览器插件等。 具备反爬措施的网站,通过判断 UA 的合理性,来响应请求,判断请求是否合法。 UA 的标准格式为: 浏览
阅读全文
摘要:SHOW ME THE CODE!!! 首先进行网页分析,具体操作:省略。 # -*- coding: utf-8 -*- """ Created on Fri Dec 10 16:25:59 2021 @author: Hider """ # 爬虫学习:8684公交路线 # 网站:https://
阅读全文
摘要:如何通过Chrome开发者工具寻找一个网站上特定数据的爬取方式。 一、查看网页源代码 在网页上右键,选择 查看网页源代码(Ctrl+U),可显示URL对应的HTML代码文本。 内容与通过代码向URL发送GET请求所得到的结果一致。 通过正则表达式、bs4、xpath等方式可以在文本内容中搜索需要的数
阅读全文