爬虫 - 随笔分类 - Hear7

爬虫之验证码处理

摘要：引入相关的门户网站在进行登录的时候，如果用户连续登录的次数超过3次或者5次的时候，就会在登录页中动态生成验证码。通过验证码达到分流和反爬的效果。验证码处理使用云打码平台识别验证码云打码平台处理验证码的实现流程： - 1.对携带验证码的页面数据进行抓取 - 2.可以将页面数据中验证码进行解析，阅读全文

posted @ 2019-01-24 20:14 Hear7 阅读(856) 评论(0) 推荐(0)

爬虫之增量式爬虫

摘要：- url是否爬过 - 数据是否爬过待更新。。。。。。。。。https://blog.csdn.net/yubei2155/article/details/79343893 阅读全文

posted @ 2019-01-18 17:28 Hear7 阅读(95) 评论(0) 推荐(0)

反击爬虫，前端工程师的脑洞可以有多大？

摘要：1. 前言对于一张网页，我们往往希望它是结构良好，内容清晰的，这样搜索引擎才能准确地认知它。而反过来，又有一些情景，我们不希望内容能被轻易获取，比方说电商网站的交易额，教育网站的题目等。因为这些内容，往往是一个产品的生命线，必须做到有效地保护。这就是爬虫与反爬虫这一话题的由来。 2. 常见反爬虫策阅读全文

posted @ 2019-01-16 22:08 Hear7 阅读(250) 评论(0) 推荐(0)

解决 Scrapy-Redis 空跑问题，链接跑完后自动关闭爬虫

摘要：Scrapy-Redis 空跑问题，redis_key链接跑完后，自动关闭爬虫问题： scrapy-redis框架中，reids存储的xxx:requests已经爬取完毕，但程序仍然一直运行，如何自动停止程序，结束空跑。相信大家都很头疼，尤其是网上一堆搬来搬去的帖子，来看一下我是如何解决这个问阅读全文

posted @ 2019-01-16 21:54 Hear7 阅读(1132) 评论(0) 推荐(0)

基于scrapy-redis组件的分布式爬虫

摘要：scrapy-redis组件安装分布式实现流程 scrapy-redis组件安装 - 下载scrapy-redis组件：pip install scrapy-redis - 更改redis配置文件：注释该行：bind 127.0.0.1，表示可以让其他ip访问redis 将yes该为no：pro 阅读全文

posted @ 2019-01-10 19:52 Hear7 阅读(233) 评论(0) 推荐(0)

Scrapy中的UA池，代理池，以及selenium的应用

摘要：UA池代理池 selenium在Scrapy中的应用 UA池 - 下载中间件： - 下载中间件（Downloader Middlewares）位于scrapy引擎和下载器之间的一层组件。 - 作用： - 引擎将请求传递给下载器过程中，下载中间件可以对请求进行一系列处理。比如设置请求的 User 阅读全文

posted @ 2019-01-10 19:51 Hear7 阅读(681) 评论(0) 推荐(0)

CrawlSpider

摘要：CrawlSpider简介 CrawlSpider使用 CrawlSpider简介 CrawlSpider其实是Spider的一个子类，除了继承到Spider的特性和功能外，还派生除了其自己独有的更加强大的特性和功能。其中最显著的功能就是”LinkExtractors链接提取器“。 Spider 阅读全文

posted @ 2019-01-10 19:48 Hear7 阅读(244) 评论(0) 推荐(0)

Scrapy持久化存储

摘要：基于终端指令的持久化存储基于管道的持久化存储基于mysql的管道存储基于redis的管道存储基于终端指令的持久化存储 - 保证爬虫文件的parse方法中有可迭代类型对象（通常为列表or字典）的返回，该返回值可以通过终端指令的形式写入指定格式的文件中进行持久化操作； - 执行输出指定格式进行存阅读全文

posted @ 2019-01-10 19:47 Hear7 阅读(159) 评论(0) 推荐(0)

Scrapy日志等级以及请求传参

摘要：日志等级请求传参提高scrapy的爬取效率日志等级 - 日志信息：使用命令：scrapy crawl 爬虫文件运行程序时，在终端输出的就是日志信息； - 日志信息的种类： - ERROR：一般错误； - WARNING：警告； - INFO：一般的信息； - DEBUG：调试信息； - 阅读全文

posted @ 2019-01-10 19:46 Hear7 阅读(265) 评论(0) 推荐(0)

Scrapy中的核心工作流程以及POST请求

摘要：五大核心组件工作流程 post请求发送递归爬取五大核心组件工作流程引擎(Scrapy)用来处理整个系统的数据流处理, 触发事务(框架核心) 调度器(Scheduler)用来接受引擎发过来的请求, 压入队列中, 并在引擎再次请求的时候返回. 可以想像成一个URL（抓取网页的网址或者说是链接）的优阅读全文

posted @ 2019-01-10 19:39 Hear7 阅读(267) 评论(0) 推荐(0)

Scrapy框架

摘要：Scrapy简介环境安装基础命令 settings配置文件 Scrapy简介 Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架，非常出名，非常强悍。所谓的框架就是一个已经被集成了各种功能（高性能异步下载，队列，分布式，解析，持久化等）的具有很强通用性的项目模板。对于框架的学阅读全文

posted @ 2019-01-09 22:06 Hear7 阅读(161) 评论(0) 推荐(0)

爬虫之移动端数据爬取

摘要：前言随着移动市场的火热，各大平台都陆陆续续的推出了自己的移动端APP来拉拢吸引和便捷其广大的用户。那么在移动端的平台当时势必会出现大量有价值的信息和数据，那这些数据我们是否可以去享用一下呢？那么接下来就进入我们的移动端APP数据的爬虫中来吧。移动端数据爬取方式 fiddler简介手机APP抓包阅读全文

posted @ 2019-01-09 16:41 Hear7 阅读(2118) 评论(0) 推荐(0)

Python网络爬虫之图片懒加载技术、selenium和PhantomJS

摘要：动态数据加载处理方式图片懒加载 selenium phantomJs 谷歌无头浏览器一.图片懒加载什么是图片懒加载？案例分析：抓取站长素材http://sc.chinaz.com/中的图片数据 #!/usr/bin/env python # -*- coding:utf-8 -*- impo 阅读全文

posted @ 2019-01-09 16:38 Hear7 阅读(472) 评论(0) 推荐(0)

爬虫中之Requests 模块的进阶

摘要：requests进阶内容 session处理cookie proxies参数设置请求代理ip 基于线程池的数据爬取引入有些时候，我们在使用爬虫程序去爬取一些用户相关信息的数据（爬取张三“人人网”个人主页数据）时，如果使用之前requests模块常规操作时，往往达不到我们想要的目的，例如： #!/ 阅读全文

posted @ 2019-01-07 22:04 Hear7 阅读(420) 评论(0) 推荐(0)

python之网络爬虫

摘要：爬虫简介 requests模块数据解析三大方法 selenium scrapy框架处理验证码移动端数据爬取爬虫简介 - 什么是爬虫：爬虫就是通过编写程序模拟浏览器上网，然后让其去互联网上抓取数据的过程。 - 爬虫的分类： """ - 通用爬虫：通用爬虫是搜索引擎（Baidu、Google 阅读全文

posted @ 2019-01-07 22:00 Hear7 阅读(289) 评论(0) 推荐(0)

01.jupyter环境安装

摘要：jupyter notebook环境安装一、什么是Jupyter Notebook？ 1. 简介 Jupyter Notebook是基于网页的用于交互计算的应用程序。其可被应用于全过程计算：开发、文档编写、运行代码和展示结果。——Jupyter Notebook官方介绍简而言之，Jupyter 阅读全文

posted @ 2019-01-07 21:20 Hear7 阅读(123) 评论(0) 推荐(0)

HTTP协议和HTTPS协议

摘要：一.HTTP协议 1.官方概念： HTTP协议是Hyper Text Transfer Protocol（超文本传输协议）的缩写,是用于从万维网（WWW:World Wide Web ）服务器传输超文本到本地浏览器的传送协议。（虽然童鞋们将这条概念都看烂了，但是也没办法，毕竟这就是HTTP的权威官方阅读全文

posted @ 2019-01-02 14:03 Hear7 阅读(256) 评论(0) 推荐(0)

爬虫基础和入门

摘要：详情请戳爬虫基础介绍爬虫基本流程爬虫之Urllib库的基本使用 http和https协议 requests模块 requests模块进阶数据解析验证码处理动态数据加载移动端数据爬取 scrapy框架基础 scrapy持久化存储 scrapy递归解析和post请求日志等级和请求传参 U 阅读全文

posted @ 2019-01-02 11:30 Hear7 阅读(148) 评论(0) 推荐(0)

爬虫验证法处理

摘要：引入相关的门户网站在进行登录的时候，如果用户连续登录的次数超过3次或者5次的时候，就会在登录页中动态生成验证码。通过验证码达到分流和反爬的效果。验证码处理使用云打码平台识别验证码云打码平台处理验证码的实现流程：云打码平台处理验证码的实现流程： - 1.对携带验证码的页面数据进行抓取 - 2 阅读全文

posted @ 2018-11-18 16:25 Hear7 阅读(339) 评论(0) 推荐(0)

爬虫之数据解析（三种方式）

摘要：引入回顾requests实现数据爬取的流程指定url 基于requests模块发起请求获取响应对象中的数据进行持久化存储其实，在上述流程中还需要较为重要的一步，就是在持久化存储之前需要进行指定数据解析。因为大多数情况下的需求，我们都会指定去使用聚焦爬虫，也就是爬取页面中指定部分的数据值，而阅读全文

posted @ 2018-11-17 21:58 Hear7 阅读(1311) 评论(0) 推荐(0)

Hear7

随笔分类 - 爬虫

公告