摘要:
1.推导式 之前我们列举过一些推导式,我们继续看看其他的写法。 将列表里的每个元素相乘: [i*i for i in list] 条件语句插入推导式(如果i等于1,将元素置空,否则不做出操作): ['' if i == 1 else i for i in list] 2.指针应用 功能:如下的pri 阅读全文
摘要:
Cookie池设计思路: 看了IP池设计,Cookie设计也是差不多一样的原理 1.获取Cookie的来源 (可能需要IP池作为支撑) 2.Cookie程序内管理 3.应用到requests 程序实现: selenium获取Cookie来源: import time from concurrent. 阅读全文
摘要:
设计IP池: 应用场景: 1.防止网站IP检测,封掉IP,终止爬虫程序运行 2.无痕浏览器 绕过非强制验证码问题 3.防识别 设计思路: 1.IP来源 2.IP管理 2.0.IP存活检测 2.1.IP程序中管理 3.IP应用 第一: IP来源做法:(不管你的IP来源在哪(收费IP网站,免费IP网站, 阅读全文
摘要:
谷歌无痕状态打开网址 F12启动开发者调试工具: 调试界面如下: 我们看到了debugger,没有触发任何我们需要的信息,很明显该网站对我们调试进行了抵制。 问题:debugger无限反调试 解决方法: 问题1.0 先看Call Stack找到他的回溯方法,执行顺序由下往上执行。 思路:我们发现de 阅读全文
摘要:
简谈Cookie 之前说过Cookie就代表你的身份 Cookie的生成方式: JS加密而成 Cookie的应用场景: 登录 访问服务器想要保护的数据 对于Cookie的场景解决办法: 无痕浏览测试 绕过 Session 自动化测试selenium JS逆向破解Cookie生成方法 保持登录状态: 阅读全文
摘要:
内置方法: max() 对比出最大值 min() 对比出最小值 abs() 取绝对值,负数变正数 all() 如果迭代器内所有值为真就返回True,否则为False(如果是空列表也为True) any() 如果可迭代对象有一个值为真就返回True bin() 返回一个整数 int 或者长整数 lon 阅读全文
摘要:
说一下爬虫第三方库的利器 requests 1.在网站上我们想去访问一个界面得到相应的内容 只需要鼠标点击一下 就能得到 2.在我们的代码中想去访问一个界面 就要用到requests去向服务器发送请求 requests具备的方法 requests最常见的 get 和 post 1.get impor 阅读全文
摘要:
看看User-Agent: 我们以baidu为例子:https://www.baidu.com/ 我们F12打开谷歌自带的开发者工具进行查看 我们可以看到request Headers 这就是我们的请求头 里面的有如下的信息(这里列举和补充一些重要的信息): Accept Accept-encodi 阅读全文
摘要:
做爬虫用python 要比 Java方便很多: 使用的第三方库(最底层的):requests 自动化测试:selenium 框架:scrapy 其他的什么爬虫软件就算了吧...像什么八爪鱼之类的... 他们有着各自的优缺点,自行baidu了解! 我们在做一个爬虫时候,重要的不是先去编写代码,而是先去 阅读全文
摘要:
爬虫是什么?有人叫它网络蜘蛛 也有人叫它网络机器人... 现在许多人掉入到理解误区,认为爬虫就是黑客,是非法的一种技术手段,其实并不是,我想说的是:网络技术本来就是研究的一门学问。 爬虫也不是黑客,爬虫能干的事情人都可以干,我们可以理解爬虫就是'超级人' 爬虫可以达到人达不到的高度,大大提高工作,应 阅读全文