爬虫 - 文章分类 - 不会钓鱼的猫

爬虫进阶之-逆向

摘要：1 为什么要逆向自动化程序（ selenium）爬取遇到指纹无法爬取，爬取数据量小；为了追求效率和更大的数据量，所以要用逆向。 2 什么是逆向当返回数据不是明文而是密文时，比如常见的模拟登陆中的密码，有些网站还是采用明文方式传输，但大部分网站都是采用的密文方式传输。这时你对登陆页面发起POST请阅读全文

posted @ 2022-12-07 23:41 不会钓鱼的猫阅读(4623) 评论(0) 推荐(0) 编辑

知乎破解加密算法模拟登陆

该文被密码保护。

posted @ 2022-10-01 22:18 不会钓鱼的猫阅读(1) 评论(0) 推荐(0) 编辑

抽屉新闻自动登录点赞

该文被密码保护。

posted @ 2022-10-01 19:53 不会钓鱼的猫阅读(0) 评论(0) 推荐(0) 编辑

自动登录12306

该文被密码保护。

posted @ 2022-10-01 18:20 不会钓鱼的猫阅读(0) 评论(0) 推荐(0) 编辑

破解极验滑动验证码(转载)

摘要：一、介绍一些网站会在正常的账号密码认证之外加一些验证码，以此来明确地区分人/机行为，从一定程度上达到反爬的效果，对于简单的校验码Tesserocr就可以搞定，如下但一些网站加入了滑动验证码，最典型的要属于极验滑动认证了，极验官网：http://www.geetest.com/，下图是极验的登录界阅读全文

posted @ 2022-10-01 17:12 不会钓鱼的猫阅读(165) 评论(0) 推荐(0) 编辑

爬取拉勾网

摘要：一、requests模块爬取 View Code # 分析页面：调试的时候，前端反爬措施，一调试就禁止，报异常解决方案：1、关闭掉右边的断点 2、或者用抓包工具进行调试 # https://www.lagou.com/jobs/positionAjax.json?city=%E4%B8%8A%E 阅读全文

posted @ 2022-10-01 17:01 不会钓鱼的猫阅读(94) 评论(0) 推荐(0) 编辑

实战小案例

摘要：1 爬取汽车之家新闻 View Code import requests from bs4 import BeautifulSoup # 分析页面，不要一上来就爬根路径，里面东西很杂 # 可以按分页爬、分类爬、日期归档爬，要进到数据所在的具体的url里面再去爬 # 1、浏览器调试，数据都在ul--l 阅读全文

posted @ 2022-09-30 15:32 不会钓鱼的猫阅读(62) 评论(0) 推荐(0) 编辑

爬取梨视频

摘要：代码实现 # 爬取梨视频 import requests import re import os header = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Ge 阅读全文

posted @ 2022-09-30 15:21 不会钓鱼的猫阅读(31) 评论(0) 推荐(0) 编辑

爬取肯德基门店地址

摘要：一、流程分析 1、请求分析请求 URL: http://www.kfc.com.cn/kfccda/ashx/GetStoreList.ashx?op=cname 请求方法: POST data = {'cname': cname, 'pid': '', 'pageIndex': 页码, 'pag 阅读全文

posted @ 2022-09-30 14:03 不会钓鱼的猫阅读(231) 评论(0) 推荐(0) 编辑

爬虫辅助相关

摘要：一、代理池 1 代理池的概念去免费代理网站爬代理数据(ip、端口、代理类型(免费))，放到数据库用python的web框架搭建一个代理池服务，建一个接口，每次朝服务端发请求，随机从数据库拿出一条代理代理池服务跟主爬虫程序不相关，是一个独立的服务 2 问题构建一个代理IP池，可能有下面这些问题：阅读全文

posted @ 2022-09-30 12:48 不会钓鱼的猫阅读(92) 评论(0) 推荐(0) 编辑

分布式爬虫

该文被密码保护。

posted @ 2022-09-30 12:18 不会钓鱼的猫阅读(0) 评论(0) 推荐(0) 编辑

Scrapy框架

该文被密码保护。

posted @ 2022-09-29 23:51 不会钓鱼的猫阅读(2) 评论(0) 推荐(0) 编辑

爬虫高性能相关

摘要：一、背景知识爬虫的本质就是一个socket客户端与服务端的通信过程，如果我们有多个url待爬取，只用一个线程且采用串行的方式执行，那只能等待爬取一个结束后才能继续下一个，效率会非常低。需要强调的是：对于单线程下串行N个任务，并不完全等同于低效，如果这N个任务都是纯计算的任务，那么该线程对cpu的阅读全文

posted @ 2022-09-29 22:30 不会钓鱼的猫阅读(65) 评论(0) 推荐(0) 编辑

解析库beautifulsoup

摘要：一、介绍 Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup 3 目前已经停止开发,官网推荐在现在的项目中使用Beautiful Soup 4, 移植到BS4 1、安阅读全文

posted @ 2022-09-29 22:00 不会钓鱼的猫阅读(91) 评论(0) 推荐(0) 编辑

请求库之selenium模块

摘要：一、介绍 selenium最初是一个自动化测试工具,而爬虫中使用它主要是为了解决requests无法直接执行JavaScript代码的问题 selenium本质是通过驱动浏览器，完全模拟浏览器的操作，比如跳转、输入、点击、下拉等，来拿到网页渲染之后的结果，可支持多种浏览器 from selenium 阅读全文

posted @ 2022-09-29 10:34 不会钓鱼的猫阅读(44) 评论(0) 推荐(0) 编辑

请求库之requests模块

摘要：一、介绍 # 介绍：使用requests可以模拟浏览器的请求，比起之前用到的urllib，requests模块的api更加便捷（本质就是封装了urllib3） # 注意：requests库发送请求将网页内容下载下来以后，并不会执行js代码，这需要我们自己分析目标站点然后发起新的request请求 # 阅读全文

posted @ 2022-09-28 17:15 不会钓鱼的猫阅读(100) 评论(0) 推荐(0) 编辑

爬虫基本原理

摘要：一、爬虫是什么 1、浏览器获取数据的方式浏览器提交请求->下载网页代码->解析/渲染成页面 2、爬虫获取数据的方式模拟浏览器发送请求->下载网页代码->只提取有用的数据->存放于数据库或文件中二、爬虫的基本流程 1、发起请求模拟浏览器发送请求（requests，selenium），Reque 阅读全文

posted @ 2022-09-28 16:51 不会钓鱼的猫阅读(136) 评论(0) 推荐(0) 编辑

Just so so

文章分类 - 爬虫

公告

搜索

常用链接

随笔档案

文章分类

阅读排行榜