上一页 1 2 3 4 5 6 ··· 9 下一页
摘要: # -*- coding: UTF-8 -*- import os import sys from spiders.market_supervision_penalty.govement_penalty_base_spider import govement_penalty_base_spider 阅读全文
posted @ 2021-10-15 10:07 Eliphaz 阅读(809) 评论(0) 推荐(0) 编辑
摘要: 什么是云锁? 云锁其实是个服务器安全软件,主业也不是反爬虫,不过有一条是可以防止cc攻击,而爬虫行为就像是频次不高的cc攻击,因而直接请求目标站并不能返回目标内容。 云锁如何反爬虫? (1)封禁高频IP(2)放个cookie # -*- coding: UTF-8 -*- import os imp 阅读全文
posted @ 2021-10-14 14:00 Eliphaz 阅读(138) 评论(0) 推荐(0) 编辑
摘要: UPDATE spider_company_business_risk.t_government_permission SET IsValid = 0 WHERE Id IN (SELECT min(Id) FROM spider_company_business_risk.t_government 阅读全文
posted @ 2021-08-17 10:43 Eliphaz 阅读(179) 评论(0) 推荐(0) 编辑
摘要: 出现这种错误基本上都是代理问题,换个代理即可 阅读全文
posted @ 2021-08-02 15:53 Eliphaz 阅读(316) 评论(0) 推荐(0) 编辑
摘要: 看网站反爬是否是瑞数可以从三个特征点观察,第一是返回页面状态码是202或者412,第二是会有个js文件(如下图所示),第三是该js文件开头是这种固定格式,3e2af61是对应瑞 数版本号。(该js文件非常重要,需要下载该文件) 核心代码: # -*- coding: UTF-8 -*- import 阅读全文
posted @ 2021-07-09 16:18 Eliphaz 阅读(7096) 评论(1) 推荐(0) 编辑
摘要: 这类反爬比起前篇讲的加速乐简单很多,笔者遇到的网站的cookie由两个参数组成,即从返回的js中,将这两个cookie参数找出。 如下图,是该网站返回内容,一眼可以看到document.cookie,熟悉的应该都知道,这段js可以生成我们所需要的cookie。 将代码复制到webstom中,新建ht 阅读全文
posted @ 2021-07-05 20:05 Eliphaz 阅读(1682) 评论(0) 推荐(0) 编辑
摘要: 一、如何识别加速乐 使用加速乐的网站,在没有cookie的情况下首次访问返回的状态码是521,或者看cookie组成,cookie含有jsl_uid的网站基本上就是加速乐。 二、js分析 新版加速乐主要分为两层,第一层通过请求头中的setcookie和请求返回的js代码生成的cookie拼接就可以过 阅读全文
posted @ 2021-06-30 16:55 Eliphaz 阅读(1157) 评论(0) 推荐(0) 编辑
摘要: 一、NumPy Ndarry对象 array(object, dtype, copy, order, subok, ndmin) object:数组或嵌套的数列 dtype:数组元素的数据类型,可选 copy:对象是否需要复制,可选 order:创建数组的样式,C为行方向,F为列方向,A为任意方向( 阅读全文
posted @ 2021-05-19 20:46 Eliphaz 阅读(130) 评论(0) 推荐(0) 编辑
摘要: def str_to_dic(headerStr, stripIsNotvalid=None): dict = collections.OrderedDict() #对字典对象中元素的排序。 if headerStr.strip(): for headItem in headerStr.split( 阅读全文
posted @ 2021-05-07 11:10 Eliphaz 阅读(83) 评论(0) 推荐(0) 编辑
摘要: 一、前提条件(1)如果想要使用该模式进行异步的数据爬取必须: 将等待即将爬取的页面url单独的抽取存储到一个列表中(2)通常情况下的玩法: 使用requests将等待爬取的页面的url获取 将url写入列表,使用多任务异步协程爬取列表中的页面数据 #特殊函数内部:不可以出现不支持异步模块,reque 阅读全文
posted @ 2021-04-29 11:29 Eliphaz 阅读(138) 评论(0) 推荐(0) 编辑
上一页 1 2 3 4 5 6 ··· 9 下一页