python爬虫 - 随笔分类 - ￣□￣

js破解-学习笔记

摘要：具体的数据如下查看页面源代码发现，一个好玩的事情，源代码中使用了大量的CSS3的语法下图，我标注的部分就是关键的一些数据了，大概在600行之后。反爬措施展示源文件数据刹车/<span class='hs_kw86_baikeIl'></span>安全系统页面显示数据一些关键数据被处理过阅读全文

posted @ 2020-11-02 19:07 ￣□￣阅读(466) 评论(0) 推荐(0)

破解/解决‘动态’字体

摘要：## 声明：破解思路由同事提供一些思路完成破解，原文章是他整理的我拷贝过来的，进一步完善封装的的代码我已附上，如有引用或者转发请附上地址或经由我2人其一人同意即可，谢谢~ ## 前言我想大家也是网上搜索到的都是对简单的静态字体破解，简简单单做个映射表而已，这个思路没毛病，可是...当你要去批量请阅读全文

posted @ 2020-08-06 16:13 ￣□￣阅读(264) 评论(0) 推荐(0)

Requests将verify设置为False后取消警告的方式

摘要：方法一 1 import requests 2 import urllib3 3 urllib3.disable_warnings() 4 resp = requests.get('https://www.***.com', verify=False) 方法二 1 import logging 2 阅读全文

posted @ 2020-07-27 11:11 ￣□￣阅读(1079) 评论(0) 推荐(0)

移除Selenium中的 window.navigator.webdriver

摘要：在《一日一技：如何正确移除Selenium中window.navigator.webdriver的值》一文中，我们介绍了在当时能够正确从Selenium启动的Chrome浏览器中移除window.navigator.webdriver的方法。后来时过境迁，Chrome升级了版本，导致当时的方法已经阅读全文

posted @ 2020-05-22 13:08 ￣□￣阅读(13511) 评论(20) 推荐(11)

在xpath中使用正则表达式

摘要：xpath中使用正则表达式其实我自己也从来没用到过，在此记录一下，万一以后会用到呢。比如有个网站正文部分是： //*[@id='postmessage_32199'] 另一个同级别页面的正文是： //*[@id='postmessage_32153'] 要抓取这种正文其实可以用xpath： // 阅读全文

posted @ 2020-04-27 14:06 ￣□￣阅读(10417) 评论(4) 推荐(0)

requests模块的SSL Error

摘要：第一次是爬取贴吧时，在使用requests时报错SSLError，通过禁用校验参数可以解决 requests.get(url, verify=False) 第二次是使用itchat登录微信时，又报错了SSLError SSLError: HTTPSConnectionPool(host='http 阅读全文

posted @ 2020-01-20 10:31 ￣□￣阅读(302) 评论(0) 推荐(0)

python爬虫_从零开始破解js加密（一）

摘要：除了一些类似字体反爬之类的奇淫技巧，js加密应该是反爬相当常见的一部分了，这也是一个分水岭，我能解决基本js加密的才能算入阶。最近正好遇到一个比较简单的js，跟大家分享一下迅雷网盘搜索_838888 输入关键字，url变了https://838888.net/search/e8bf9be587bb 阅读全文

posted @ 2019-10-10 16:36 ￣□￣阅读(3698) 评论(1) 推荐(0)

pyppeteer模块的基本使用

摘要：pyppeteer模块的基本使用引言 Selenium 在被使用的时候有个麻烦事，就是环境的相关配置，得安装好相关浏览器，比如 Chrome、Firefox 等等，然后还要到官方网站去下载对应的驱动，最重要的还需要安装对应的 Python Selenium 库，确实是不是很方便，另外如果要做大规模阅读全文

posted @ 2019-07-31 12:05 ￣□￣阅读(1653) 评论(0) 推荐(0)

js加密数据爬取

摘要：- 中国空气质量在线监测分析平台是一个收录全国各大城市天气数据的网站，包括温度、湿度、PM 2.5、AQI 等数据，链接为：https://www.aqistudy.cn/html/city_detail.html,网站显示为：该网站所有的空气质量数据都是基于图表进行显示的，并且都是出发鼠标滑动或阅读全文

posted @ 2019-07-30 17:28 ￣□￣阅读(2135) 评论(2) 推荐(1)

requests 返回 521

摘要：网页端抓数据免不了要跟JavaScript打交道，尤其是JS代码有混淆，对cookie做了手脚。找到cookie生成的地方要费一点时间。那天碰到这样一个网页，用浏览器打开很正常。然而用requests下载URL却得到“521”的状态码，返回的内容是一串压缩混淆的JavaScript代码。就是下面这阅读全文

posted @ 2019-07-15 18:33 ￣□￣阅读(896) 评论(0) 推荐(0)

Selenium+Webdriver被检测识别出来的应对方案

摘要：在写爬虫，面对很多js 加载的页面，很多人束手无策，更多的人喜欢用Senlenium+ Webdriver，古语有云：道高一尺魔高一丈。已淘宝为首，众多网站都针对 Selenium的js监测机制，比如：window.navigator.webdriver，navigator.languages，n 阅读全文

posted @ 2019-04-25 21:08 ￣□￣阅读(33877) 评论(4) 推荐(7)

Python网络爬虫第二弹《http和https协议》

摘要：一.HTTP协议 1.官方概念： HTTP协议是Hyper Text Transfer Protocol（超文本传输协议）的缩写,是用于从万维网（WWW:World Wide Web ）服务器传输超文本到本地浏览器的传送协议。（虽然童鞋们将这条概念都看烂了，但是也没办法，毕竟这就是HTTP的权威官方阅读全文

posted @ 2019-04-12 21:32 ￣□￣阅读(270) 评论(0) 推荐(0)

jupyter环境安装

摘要：jupyter notebook环境安装一、什么是Jupyter Notebook？ 1. 简介 Jupyter Notebook是基于网页的用于交互计算的应用程序。其可被应用于全过程计算：开发、文档编写、运行代码和展示结果。——Jupyter Notebook官方介绍简而言之，Jupyter 阅读全文

posted @ 2019-04-12 21:31 ￣□￣阅读(391) 评论(0) 推荐(0)

增量式爬虫

摘要：增量式爬虫引言：当我们在浏览相关网页的时候会发现，某些网站定时会在原有网页数据的基础上更新一批数据，例如某电影网站会实时更新一批最近热门的电影。小说网站会根据作者创作的进度实时更新最新的章节数据等等。那么，类似的情景，当我们在爬虫的过程中遇到时，我们是不是需要定时更新程序以便能爬取到网站中最近更阅读全文

posted @ 2019-03-25 19:25 ￣□￣阅读(326) 评论(0) 推荐(0)

基于scrapy-redis两种形式的分布式爬虫

摘要：redis分布式部署 1.scrapy框架是否可以自己实现分布式？ - 不可以。原因有二。其一：因为多台机器上部署的scrapy会各自拥有各自的调度器，这样就使得多台机器无法分配start_urls列表中的url。（多台机器无法共享同一个调度器）其二：多台机器爬取到的数据无法通过同一个管道对数据阅读全文

posted @ 2019-03-25 19:25 ￣□￣阅读(139) 评论(0) 推荐(0)

scrapy中selenium的应用

摘要：引入在通过scrapy框架进行某些网站数据爬取的时候，往往会碰到页面动态数据加载的情况发生，如果直接使用scrapy对其url发请求，是绝对获取不到那部分动态加载出来的数据值。但是通过观察我们会发现，通过浏览器进行url请求发送则会加载出对应的动态加载出的数据。那么如果我们想要在scrapy也获取阅读全文

posted @ 2019-03-25 19:24 ￣□￣阅读(176) 评论(0) 推荐(0)

Python网络爬虫之Scrapy框架（CrawlSpider）

摘要：引入提问：如果想要通过爬虫程序去爬取”糗百“全站数据新闻数据的话，有几种实现方法？方法一：基于Scrapy框架中的Spider的递归爬取进行实现（Request模块递归回调parse方法）。方法二：基于CrawlSpider的自动爬取进行实现（更加简洁和高效）。今日概要 CrawlSpide 阅读全文

posted @ 2019-03-25 19:24 ￣□￣阅读(165) 评论(0) 推荐(0)

UA池和代理池

摘要：今日概要 scrapy下载中间件 UA池代理池今日详情一.下载中间件先祭出框架图：下载中间件（Downloader Middlewares）位于scrapy引擎和下载器之间的一层组件。 - 作用：（1）引擎将请求传递给下载器过程中，下载中间件可以对请求进行一系列处理。比如设置请求的阅读全文

posted @ 2019-03-25 19:23 ￣□￣阅读(220) 评论(0) 推荐(0)

抓取js动态生成的数据分析案例

摘要：需求：爬取https://www.xuexi.cn/f997e76a890b0e5a053c57b19f468436/018d244441062d8916dd472a4c6a0a0b.html页面中的新闻数据。分析： 1.首先通过分析页面会发现该页面中的新闻数据都是动态加载出来的，并且通过抓包工具阅读全文

posted @ 2019-03-25 19:22 ￣□￣阅读(264) 评论(0) 推荐(0)

scrapy框架的日志等级和请求传参

摘要：今日概要日志等级请求传参如何提高scrapy的爬取效率今日详情一.Scrapy的日志等级 - 在使用scrapy crawl spiderFileName运行程序时，在终端里打印输出的就是scrapy的日志信息。 - 日志信息的种类： ERROR ：一般错误 WARNING : 警告 I 阅读全文

posted @ 2019-03-22 17:39 ￣□￣阅读(181) 评论(0) 推荐(0)

￣□￣

随笔分类 - python爬虫

公告