2020年11月19日

Chrome 在爬虫中的使用

摘要: 一:新建隐身窗口 浏览器中直接打开网站,会自动带上之前网站时保存的cookie,但是在爬虫中首次获取页面是没有携带cookie的,这种情况如何解决呢? 使用隐身窗口,首次打开网站,不会带上cookie,能够观察页面的获取情况,包括对方服务器如何设置cookie在本地 二: chrome中networ 阅读全文

posted @ 2020-11-19 16:48 paike123 阅读(154) 评论(0) 推荐(0) 编辑

图片识别引擎的使用

摘要: 一.图片验证码 1.1 什么是图片 验证码- 验证码(CAPTCHA)是“Completely Automated Public Turing test to tell Computers and Humans Apart”(全自动区分计算机和人类的图灵测试)的缩写,是一种区分用户是计算机还是人的公 阅读全文

posted @ 2020-11-19 16:32 paike123 阅读(850) 评论(0) 推荐(0) 编辑

常见的反爬手段和解决方法

摘要: 一:服务器反爬的原因 - 爬虫占总PV(PV是指页面的访问次数,每打开或刷新一次页面,就算做一个pv)比例较高,这样浪费钱(尤其是三月份爬虫)。 三月份爬虫是个什么概念呢?每年的三月份我们会迎接一次爬虫高峰期,有大量的硕士在写论文的时候会选择爬取一些往网站,并进行舆情分析。因为五月份交论文,所以嘛, 阅读全文

posted @ 2020-11-19 16:19 paike123 阅读(731) 评论(0) 推荐(0) 编辑

导航