摘要:
# -*- coding: UTF-8 -*- import os import sys from spiders.market_supervision_penalty.govement_penalty_base_spider import govement_penalty_base_spider 阅读全文
摘要:
什么是云锁? 云锁其实是个服务器安全软件,主业也不是反爬虫,不过有一条是可以防止cc攻击,而爬虫行为就像是频次不高的cc攻击,因而直接请求目标站并不能返回目标内容。 云锁如何反爬虫? (1)封禁高频IP(2)放个cookie # -*- coding: UTF-8 -*- import os imp 阅读全文
摘要:
UPDATE spider_company_business_risk.t_government_permission SET IsValid = 0 WHERE Id IN (SELECT min(Id) FROM spider_company_business_risk.t_government 阅读全文
摘要:
出现这种错误基本上都是代理问题,换个代理即可 阅读全文
摘要:
看网站反爬是否是瑞数可以从三个特征点观察,第一是返回页面状态码是202或者412,第二是会有个js文件(如下图所示),第三是该js文件开头是这种固定格式,3e2af61是对应瑞 数版本号。(该js文件非常重要,需要下载该文件) 核心代码: # -*- coding: UTF-8 -*- import 阅读全文
摘要:
这类反爬比起前篇讲的加速乐简单很多,笔者遇到的网站的cookie由两个参数组成,即从返回的js中,将这两个cookie参数找出。 如下图,是该网站返回内容,一眼可以看到document.cookie,熟悉的应该都知道,这段js可以生成我们所需要的cookie。 将代码复制到webstom中,新建ht 阅读全文
摘要:
一、如何识别加速乐 使用加速乐的网站,在没有cookie的情况下首次访问返回的状态码是521,或者看cookie组成,cookie含有jsl_uid的网站基本上就是加速乐。 二、js分析 新版加速乐主要分为两层,第一层通过请求头中的setcookie和请求返回的js代码生成的cookie拼接就可以过 阅读全文
摘要:
一、NumPy Ndarry对象 array(object, dtype, copy, order, subok, ndmin) object:数组或嵌套的数列 dtype:数组元素的数据类型,可选 copy:对象是否需要复制,可选 order:创建数组的样式,C为行方向,F为列方向,A为任意方向( 阅读全文
摘要:
def str_to_dic(headerStr, stripIsNotvalid=None): dict = collections.OrderedDict() #对字典对象中元素的排序。 if headerStr.strip(): for headItem in headerStr.split( 阅读全文
摘要:
一、前提条件(1)如果想要使用该模式进行异步的数据爬取必须: 将等待即将爬取的页面url单独的抽取存储到一个列表中(2)通常情况下的玩法: 使用requests将等待爬取的页面的url获取 将url写入列表,使用多任务异步协程爬取列表中的页面数据 #特殊函数内部:不可以出现不支持异步模块,reque 阅读全文