随笔分类 -  爬虫

摘要:Requests方法 -- cookie绕过验证码登录操作 前言 有些登录的接口会有验证码:短信验证码,图形验证码等,这种登录的话验证码参数可以从后台获取的(或者查数据库最直接)。 获取不到也没关系,可以通过添加 cookie 的方式绕过验证码。 1、这里以登录博客园为例。 a、抓取登录的cooki 阅读全文
posted @ 2021-01-08 16:27 hanfe1 阅读(2769) 评论(0) 推荐(0) 编辑
摘要:本文实例讲述了Python3的urllib.parse常用函数。分享给大家供大家参考,具体如下: 1、获取url参数urlparse、将GET请求参数转回字典parse_qs >>> from urllib import parse >>> url = r'https://docs.python.o 阅读全文
posted @ 2020-12-22 17:32 hanfe1 阅读(1704) 评论(0) 推荐(0) 编辑
摘要:1. 前言 记录总结一下requests模块请求的参数或者请求正文的数据类型 2. 将str类型转成非str类型的方法 函数:eval() 格式:eval(expression[, globals[, locals]]) expression : 表达式。 globals : 变量作用域,全局命名空 阅读全文
posted @ 2020-07-20 14:46 hanfe1 阅读(2115) 评论(0) 推荐(0) 编辑
摘要:https://blog.csdn.net/jiduochou963/article/details/87564467 阅读全文
posted @ 2020-04-29 17:46 hanfe1 阅读(1451) 评论(0) 推荐(0) 编辑
摘要:需求 scrapy+redis分布式爬取58同城北京全站二手房数据 环境 win10 pycharm2019.2 python3.7 scrapy模块| scrapy_redis模块|redis数据库 需求 基于Spider或者CrawlSpider进行二手房信息的爬取 本机搭建分布式环境对二手房信 阅读全文
posted @ 2020-04-13 17:08 hanfe1 阅读(577) 评论(0) 推荐(0) 编辑
摘要:爬虫相关笔记 01 爬虫简介 02 requests模块 03 数据解析 04 验证码识别 05 request高级操作 06 高性能异步爬虫 07 selenium模块基本使用 08 scrapy框架 新 scrapy框架 09 M3U8流视频数据爬虫 10 MongoDB数据存储 11 urli 阅读全文
posted @ 2020-04-08 17:59 hanfe1 阅读(1637) 评论(0) 推荐(0) 编辑
摘要:简介 selenium 是一种浏览器自动化的工具,所谓的自动化是指,我们可以通过代码的形式制定一系列的行为动作,然后执行代码,这些动作就会同步触发在浏览器中。 环境安装 下载安装selenium:pip install selenium 下载浏览器驱动程序: http://chromedriver. 阅读全文
posted @ 2020-04-08 17:53 hanfe1 阅读(672) 评论(0) 推荐(0) 编辑
摘要:06 高性能异步爬虫 高性能异步爬虫 线程and线程池 引入 很多同学对于异步这个概念只是停留在了“听说很NB”的认知层面上,很少有人能够在项目中真正的使用异步实现高性能的相关操作。本节课,咱们就一起来学习一下,爬虫中如何使用异步实现高性能的数据爬取操作。 背景 其实爬虫的本质就是client发请求 阅读全文
posted @ 2020-04-08 17:52 hanfe1 阅读(470) 评论(0) 推荐(0) 编辑
摘要:简历模板下载拓展 import requests from lxml import etree import os headers = { 'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 阅读全文
posted @ 2020-04-08 17:50 hanfe1 阅读(897) 评论(0) 推荐(0) 编辑
摘要:04 验证码识别 what is 验证码? 是一种区分用户是计算机还是人的公共全自动程序。验证码可以防止:恶意破解密码、刷票、论坛灌水,有效防止某个黑客对某一个特定注册用户用特定程序暴力破解方式进行不断的登陆尝试,实际上用验证码是现在很多网站通行的方式,我们利用比较简易的方式实现了这个功能。 验证码 阅读全文
posted @ 2020-04-08 17:46 hanfe1 阅读(512) 评论(0) 推荐(0) 编辑
摘要:03 数据解析 引入 回顾requests模块实现数据爬取的流程 指定url 发起请求 获取响应数据 持久化存储 其实,在上述流程中还需要较为重要的一步,就是在持久化存储之前需要进行指定数据解析。因为大多数情况下的需求,我们都会指定去使用聚焦爬虫,也就是爬取页面中指定部分的数据值,而不是整个页面的数 阅读全文
posted @ 2020-04-08 17:41 hanfe1 阅读(1380) 评论(0) 推荐(1) 编辑
摘要:02 requests模块 requests模块初始 引入 在python实现的网络爬虫中,用于网络请求发送的模块有两种,第一种为urllib模块,第二种为requests模块。urllib模块是一种比较古老的模块,在使用的过程中较为繁琐和不便。当requests模块出现后,就快速的代替了urlli 阅读全文
posted @ 2020-04-08 17:39 hanfe1 阅读(1332) 评论(0) 推荐(0) 编辑
摘要:01 爬虫简介 what is 爬虫? \ 形象概念: 爬虫,即网络爬虫,大家可以理解为在网络上爬行的一直蜘蛛,互联网就比作一张大网,而爬虫便是在这张网上爬来爬去的蜘蛛咯,如果它遇到资源,那么它就会抓取下来。想抓取什么?这个由你来控制它。 \ 学术概念:爬虫就是通过编写程序 模拟 浏览器上网,让其去 阅读全文
posted @ 2020-04-08 17:38 hanfe1 阅读(1075) 评论(0) 推荐(0) 编辑
摘要:1.scrapy简介 1.1 scrapy初识 什么是框架? 所谓的框架简单通用解释就是就是一个具有很强通用性并且集成了很多功能的项目模板,该模板可被应用在不同的项目需求中。也可被视为是一个项目的半成品。 如何学习框架? 对于刚接触编程或者初级程序员来讲,对于一个新的框架,只需要掌握该框架的作用及其 阅读全文
posted @ 2020-04-04 22:13 hanfe1 阅读(941) 评论(0) 推荐(0) 编辑
摘要:一.urllib2方法 二、requests方法 阅读全文
posted @ 2020-04-03 11:06 hanfe1 阅读(1924) 评论(0) 推荐(0) 编辑
摘要:(目录结构如上图) 在主目录中加入main.py,在其中加入代码,运行此文件就可以运行整个爬虫: 转自 https://www.cnblogs.com/chenxi188/p/10844844.html 阅读全文
posted @ 2020-03-31 17:40 hanfe1 阅读(169) 评论(0) 推荐(0) 编辑
摘要:请求传参 51job 案例 (原本要写Boss,改成51了,创建项目时的名称没改) 在某些情况下,我们爬取的数据不在同一个页面中,例如,我们爬取一个电影网站,电影的名称,评分在一级页面,而要爬取的其他电影详情在其二级子页面中。这时我们就需要用到请求传参。 请求传参的使用场景 当我们使用爬虫爬取的数据 阅读全文
posted @ 2020-03-30 21:22 hanfe1 阅读(540) 评论(0) 推荐(0) 编辑
摘要:https://www.jianshu.com/p/91365f343585 阅读全文
posted @ 2020-03-24 17:19 hanfe1 阅读(343) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示