随笔分类 -  python爬虫

摘要:具体的数据如下 查看页面源代码发现,一个好玩的事情,源代码中使用了大量的CSS3的语法 下图,我标注的部分就是关键的一些数据了,大概在600行之后。 反爬措施展示 源文件数据 刹车/<span class='hs_kw86_baikeIl'></span>安全系统 页面显示数据 一些关键数据被处理过 阅读全文
posted @ 2020-11-02 19:07  ̄□ ̄ 阅读(434) 评论(0) 推荐(0) 编辑
摘要:## 声明: 破解思路由同事提供一些思路完成破解,原文章是他整理的我拷贝过来的,进一步完善封装的的代码我已附上,如有引用或者转发请附上地址或经由我2人其一人同意即可,谢谢~ ## 前言 我想大家也是网上搜索到的都是对简单的静态字体破解,简简单单做个映射表而已,这个思路没毛病,可是...当你要去批量请 阅读全文
posted @ 2020-08-06 16:13  ̄□ ̄ 阅读(238) 评论(0) 推荐(0) 编辑
摘要:方法一 1 import requests 2 import urllib3 3 urllib3.disable_warnings() 4 resp = requests.get('https://www.***.com', verify=False) 方法二 1 import logging 2 阅读全文
posted @ 2020-07-27 11:11  ̄□ ̄ 阅读(1064) 评论(0) 推荐(0) 编辑
摘要:在《一日一技:如何正确移除Selenium中window.navigator.webdriver的值》一文中,我们介绍了在当时能够正确从Selenium启动的Chrome浏览器中移除window.navigator.webdriver的方法。 后来时过境迁,Chrome升级了版本,导致当时的方法已经 阅读全文
posted @ 2020-05-22 13:08  ̄□ ̄ 阅读(13147) 评论(20) 推荐(11) 编辑
摘要:xpath中使用正则表达式 其实我自己也从来没用到过,在此记录一下,万一以后会用到呢。 比如有个网站正文部分是: //*[@id='postmessage_32199'] 另一个同级别页面的正文是: //*[@id='postmessage_32153'] 要抓取这种正文其实可以用xpath: // 阅读全文
posted @ 2020-04-27 14:06  ̄□ ̄ 阅读(10222) 评论(4) 推荐(0) 编辑
摘要:第一次是爬取贴吧时,在使用requests时报错SSLError, 通过禁用校验参数可以解决 requests.get(url, verify=False) 第二次是使用itchat登录微信时,又报错了SSLError SSLError: HTTPSConnectionPool(host='http 阅读全文
posted @ 2020-01-20 10:31  ̄□ ̄ 阅读(262) 评论(0) 推荐(0) 编辑
摘要:除了一些类似字体反爬之类的奇淫技巧,js加密应该是反爬相当常见的一部分了,这也是一个分水岭,我能解决基本js加密的才能算入阶。 最近正好遇到一个比较简单的js,跟大家分享一下迅雷网盘搜索_838888 输入关键字,url变了https://838888.net/search/e8bf9be587bb 阅读全文
posted @ 2019-10-10 16:36  ̄□ ̄ 阅读(3667) 评论(1) 推荐(0) 编辑
摘要:pyppeteer模块的基本使用 引言 Selenium 在被使用的时候有个麻烦事,就是环境的相关配置,得安装好相关浏览器,比如 Chrome、Firefox 等等,然后还要到官方网站去下载对应的驱动,最重要的还需要安装对应的 Python Selenium 库,确实是不是很方便,另外如果要做大规模 阅读全文
posted @ 2019-07-31 12:05  ̄□ ̄ 阅读(1601) 评论(0) 推荐(0) 编辑
摘要:- 中国空气质量在线监测分析平台是一个收录全国各大城市天气数据的网站,包括温度、湿度、PM 2.5、AQI 等数据,链接为:https://www.aqistudy.cn/html/city_detail.html,网站显示为: 该网站所有的空气质量数据都是基于图表进行显示的,并且都是出发鼠标滑动或 阅读全文
posted @ 2019-07-30 17:28  ̄□ ̄ 阅读(2054) 评论(2) 推荐(1) 编辑
摘要:网页端抓数据免不了要跟JavaScript打交道,尤其是JS代码有混淆,对cookie做了手脚。找到cookie生成的地方要费一点时间。 那天碰到这样一个网页,用浏览器打开很正常。然而用requests下载URL却得到“521”的状态码,返回的内容是一串压缩混淆的JavaScript代码。就是下面这 阅读全文
posted @ 2019-07-15 18:33  ̄□ ̄ 阅读(825) 评论(0) 推荐(0) 编辑
摘要:在写爬虫,面对很多js 加载的页面,很多人束手无策,更多的人喜欢用Senlenium+ Webdriver,古语有云:道高一尺魔高一丈。已淘宝为首,众多网站都针对 Selenium的js监测机制, 比如:window.navigator.webdriver,navigator.languages,n 阅读全文
posted @ 2019-04-25 21:08  ̄□ ̄ 阅读(33616) 评论(4) 推荐(7) 编辑
摘要:一.HTTP协议 1.官方概念: HTTP协议是Hyper Text Transfer Protocol(超文本传输协议)的缩写,是用于从万维网(WWW:World Wide Web )服务器传输超文本到本地浏览器的传送协议。(虽然童鞋们将这条概念都看烂了,但是也没办法,毕竟这就是HTTP的权威官方 阅读全文
posted @ 2019-04-12 21:32  ̄□ ̄ 阅读(256) 评论(0) 推荐(0) 编辑
摘要:jupyter notebook环境安装 一、什么是Jupyter Notebook? 1. 简介 Jupyter Notebook是基于网页的用于交互计算的应用程序。其可被应用于全过程计算:开发、文档编写、运行代码和展示结果。——Jupyter Notebook官方介绍 简而言之,Jupyter 阅读全文
posted @ 2019-04-12 21:31  ̄□ ̄ 阅读(367) 评论(0) 推荐(0) 编辑
摘要:增量式爬虫 引言: 当我们在浏览相关网页的时候会发现,某些网站定时会在原有网页数据的基础上更新一批数据,例如某电影网站会实时更新一批最近热门的电影。小说网站会根据作者创作的进度实时更新最新的章节数据等等。那么,类似的情景,当我们在爬虫的过程中遇到时,我们是不是需要定时更新程序以便能爬取到网站中最近更 阅读全文
posted @ 2019-03-25 19:25  ̄□ ̄ 阅读(306) 评论(0) 推荐(0) 编辑
摘要:redis分布式部署 1.scrapy框架是否可以自己实现分布式? - 不可以。原因有二。 其一:因为多台机器上部署的scrapy会各自拥有各自的调度器,这样就使得多台机器无法分配start_urls列表中的url。(多台机器无法共享同一个调度器) 其二:多台机器爬取到的数据无法通过同一个管道对数据 阅读全文
posted @ 2019-03-25 19:25  ̄□ ̄ 阅读(128) 评论(0) 推荐(0) 编辑
摘要:引入 在通过scrapy框架进行某些网站数据爬取的时候,往往会碰到页面动态数据加载的情况发生,如果直接使用scrapy对其url发请求,是绝对获取不到那部分动态加载出来的数据值。但是通过观察我们会发现,通过浏览器进行url请求发送则会加载出对应的动态加载出的数据。那么如果我们想要在scrapy也获取 阅读全文
posted @ 2019-03-25 19:24  ̄□ ̄ 阅读(167) 评论(0) 推荐(0) 编辑
摘要:引入 提问:如果想要通过爬虫程序去爬取”糗百“全站数据新闻数据的话,有几种实现方法? 方法一:基于Scrapy框架中的Spider的递归爬取进行实现(Request模块递归回调parse方法)。 方法二:基于CrawlSpider的自动爬取进行实现(更加简洁和高效)。 今日概要 CrawlSpide 阅读全文
posted @ 2019-03-25 19:24  ̄□ ̄ 阅读(150) 评论(0) 推荐(0) 编辑
摘要:今日概要 scrapy下载中间件 UA池 代理池 今日详情 一.下载中间件 先祭出框架图: 下载中间件(Downloader Middlewares) 位于scrapy引擎和下载器之间的一层组件。 - 作用: (1)引擎将请求传递给下载器过程中, 下载中间件可以对请求进行一系列处理。比如设置请求的 阅读全文
posted @ 2019-03-25 19:23  ̄□ ̄ 阅读(191) 评论(0) 推荐(0) 编辑
摘要:需求:爬取https://www.xuexi.cn/f997e76a890b0e5a053c57b19f468436/018d244441062d8916dd472a4c6a0a0b.html页面中的新闻数据。 分析: 1.首先通过分析页面会发现该页面中的新闻数据都是动态加载出来的,并且通过抓包工具 阅读全文
posted @ 2019-03-25 19:22  ̄□ ̄ 阅读(243) 评论(0) 推荐(0) 编辑
摘要:今日概要 日志等级 请求传参 如何提高scrapy的爬取效率 今日详情 一.Scrapy的日志等级 - 在使用scrapy crawl spiderFileName运行程序时,在终端里打印输出的就是scrapy的日志信息。 - 日志信息的种类: ERROR : 一般错误 WARNING : 警告 I 阅读全文
posted @ 2019-03-22 17:39  ̄□ ̄ 阅读(166) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示