文章分类 -  爬虫

摘要:1 为什么要逆向 自动化程序( selenium)爬取遇到指纹无法爬取,爬取数据量小;为了追求效率和更大的数据量,所以要用逆向。 2 什么是逆向 当返回数据不是明文而是密文时,比如常见的模拟登陆中的密码,有些网站还是采用明文方式传输,但大部分网站都是采用的密文方式传输。这时你对登陆页面发起POST请 阅读全文
posted @ 2022-12-07 23:41 不会钓鱼的猫 阅读(4623) 评论(0) 推荐(0) 编辑
该文被密码保护。
posted @ 2022-10-01 22:18 不会钓鱼的猫 阅读(1) 评论(0) 推荐(0) 编辑
该文被密码保护。
posted @ 2022-10-01 19:53 不会钓鱼的猫 阅读(0) 评论(0) 推荐(0) 编辑
该文被密码保护。
posted @ 2022-10-01 18:20 不会钓鱼的猫 阅读(0) 评论(0) 推荐(0) 编辑
摘要:一、介绍 一些网站会在正常的账号密码认证之外加一些验证码,以此来明确地区分人/机行为,从一定程度上达到反爬的效果,对于简单的校验码Tesserocr就可以搞定,如下 但一些网站加入了滑动验证码,最典型的要属于极验滑动认证了,极验官网:http://www.geetest.com/,下图是极验的登录界 阅读全文
posted @ 2022-10-01 17:12 不会钓鱼的猫 阅读(165) 评论(0) 推荐(0) 编辑
摘要:一、requests模块爬取 View Code # 分析页面: 调试的时候,前端反爬措施,一调试就禁止,报异常 解决方案:1、关闭掉右边的断点 2、或者用抓包工具进行调试 # https://www.lagou.com/jobs/positionAjax.json?city=%E4%B8%8A%E 阅读全文
posted @ 2022-10-01 17:01 不会钓鱼的猫 阅读(94) 评论(0) 推荐(0) 编辑
摘要:1 爬取汽车之家新闻 View Code import requests from bs4 import BeautifulSoup # 分析页面,不要一上来就爬根路径,里面东西很杂 # 可以按分页爬、分类爬、日期归档爬,要进到数据所在的具体的url里面再去爬 # 1、浏览器调试,数据都在ul--l 阅读全文
posted @ 2022-09-30 15:32 不会钓鱼的猫 阅读(62) 评论(0) 推荐(0) 编辑
摘要:代码实现 # 爬取梨视频 import requests import re import os header = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Ge 阅读全文
posted @ 2022-09-30 15:21 不会钓鱼的猫 阅读(31) 评论(0) 推荐(0) 编辑
摘要:一、流程分析 1、请求分析 请求 URL: http://www.kfc.com.cn/kfccda/ashx/GetStoreList.ashx?op=cname 请求方法: POST data = {'cname': cname, 'pid': '', 'pageIndex': 页码, 'pag 阅读全文
posted @ 2022-09-30 14:03 不会钓鱼的猫 阅读(231) 评论(0) 推荐(0) 编辑
摘要:一、代理池 1 代理池的概念 去免费代理网站爬代理数据(ip、端口、代理类型(免费)),放到数据库用python的web框架搭建一个代理池服务,建一个接口,每次朝服务端发请求,随机从数据库拿出一条代理代理池服务跟主爬虫程序不相关,是一个独立的服务 2 问题 构建一个代理IP池,可能有下面这些问题: 阅读全文
posted @ 2022-09-30 12:48 不会钓鱼的猫 阅读(92) 评论(0) 推荐(0) 编辑
该文被密码保护。
posted @ 2022-09-30 12:18 不会钓鱼的猫 阅读(0) 评论(0) 推荐(0) 编辑
该文被密码保护。
posted @ 2022-09-29 23:51 不会钓鱼的猫 阅读(2) 评论(0) 推荐(0) 编辑
摘要:一、背景知识 爬虫的本质就是一个socket客户端与服务端的通信过程,如果我们有多个url待爬取,只用一个线程且采用串行的方式执行,那只能等待爬取一个结束后才能继续下一个,效率会非常低。 需要强调的是:对于单线程下串行N个任务,并不完全等同于低效,如果这N个任务都是纯计算的任务,那么该线程对cpu的 阅读全文
posted @ 2022-09-29 22:30 不会钓鱼的猫 阅读(65) 评论(0) 推荐(0) 编辑
摘要:一、介绍 Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup 3 目前已经停止开发,官网推荐在现在的项目中使用Beautiful Soup 4, 移植到BS4 1、安 阅读全文
posted @ 2022-09-29 22:00 不会钓鱼的猫 阅读(91) 评论(0) 推荐(0) 编辑
摘要:一、介绍 selenium最初是一个自动化测试工具,而爬虫中使用它主要是为了解决requests无法直接执行JavaScript代码的问题 selenium本质是通过驱动浏览器,完全模拟浏览器的操作,比如跳转、输入、点击、下拉等,来拿到网页渲染之后的结果,可支持多种浏览器 from selenium 阅读全文
posted @ 2022-09-29 10:34 不会钓鱼的猫 阅读(44) 评论(0) 推荐(0) 编辑
摘要:一、介绍 # 介绍:使用requests可以模拟浏览器的请求,比起之前用到的urllib,requests模块的api更加便捷(本质就是封装了urllib3) # 注意:requests库发送请求将网页内容下载下来以后,并不会执行js代码,这需要我们自己分析目标站点然后发起新的request请求 # 阅读全文
posted @ 2022-09-28 17:15 不会钓鱼的猫 阅读(100) 评论(0) 推荐(0) 编辑
摘要:一、爬虫是什么 1、浏览器获取数据的方式 浏览器提交请求->下载网页代码->解析/渲染成页面 2、爬虫获取数据的方式 模拟浏览器发送请求->下载网页代码->只提取有用的数据->存放于数据库或文件中 二、爬虫的基本流程 1、发起请求 模拟浏览器发送请求(requests,selenium),Reque 阅读全文
posted @ 2022-09-28 16:51 不会钓鱼的猫 阅读(136) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示