01 2019 档案

摘要:处理丢失数据 阅读全文
posted @ 2019-01-18 21:06 熊猫大侠-呀呀呀!!! 阅读(135) 评论(0) 推荐(0)
摘要:Pandas的数据结构 导入pandas: import pandas 1. Series Series是一种类似与一维数组的对象,由下面两个部分组成: values:一组数据(ndarray类型) index:相关的数据索引标签 Series的数据参数: Series(data=None, ind 阅读全文
posted @ 2019-01-18 21:05 熊猫大侠-呀呀呀!!! 阅读(126) 评论(0) 推荐(0)
摘要:三、ndarray的基本操作下部 5.切分 1. 与级联类似,三个函数完成切分工作: np.split(arr, 行/列号 ,轴):参数2是一个列表类型 np.vsplit 行切分 np.hsplit 列切分 示例: 2.切分照片 结果: 2.1 行切分 结果: 2.2 列切分 结果: 6.副本 所 阅读全文
posted @ 2019-01-18 14:02 熊猫大侠-呀呀呀!!! 阅读(147) 评论(0) 推荐(0)
摘要:什么是数据分析: - 数据分析就是把隐藏在一些看似杂乱无章的数据背后的信息提炼出来,总结出所研究对象的内在规律 数据分析三剑客(模块): - Numpy, Pandas, Matplotlib Numpy简介: Numpy (Numerical Python) 是python语言的一个扩展程序库,支 阅读全文
posted @ 2019-01-17 21:12 熊猫大侠-呀呀呀!!! 阅读(284) 评论(0) 推荐(0)
摘要:什么是定时爬虫: 定时爬虫:使用脚本在指定时间内进行一次数据(最新更新)的爬取. 阅读全文
posted @ 2019-01-16 21:35 熊猫大侠-呀呀呀!!! 阅读(396) 评论(0) 推荐(0)
摘要:一、增量式爬虫 1.什么是增量式爬虫??? — 通俗的来说,爬取网站中更新的数据,不管是产生新页面,还是原本的页面更新,这种变化都被称为增量, 而爬取过程则被称为增量爬取 2.回顾一下爬虫的工作流程 1. 指定URL,发送URL请求,获取页面数据 2. 获得响应对象 3. 解析对象的内容 4. 储存 阅读全文
posted @ 2019-01-16 21:34 熊猫大侠-呀呀呀!!! 阅读(428) 评论(0) 推荐(0)
摘要:redis分布式部署 1.scrapy框架是否可以自己实现分布式? - 不可以。原因有二。 其一:因为多台机器上部署的scrapy会各自拥有各自的调度器,这样就使得多台机器无法分配start_urls列表中的url。(多台机器无法共享同一个调度器) 其二:多台机器爬取到的数据无法通过同一个管道对数据 阅读全文
posted @ 2019-01-16 15:24 熊猫大侠-呀呀呀!!! 阅读(218) 评论(0) 推荐(0)
摘要:CrawlSpider的引入: 提问:如果想要通过爬虫程序去爬取”糗百“全站数据新闻数据的话,有几种实现方法? 方法一:基于Scrapy框架中的Spider的递归爬取进行实现(Request模块递归回调parse方法)。 方法二:基于CrawlSpider的自动爬取进行实现(更加简洁和高效) Cra 阅读全文
posted @ 2019-01-15 20:35 熊猫大侠-呀呀呀!!! 阅读(256) 评论(0) 推荐(0)
摘要:引入: 在通过scrapy框架进行某些网站数据爬取的时候,往往会碰到页面动态数据加载的情况发生,如果直接使用scrapy对其url发请求,是绝对获取不到那部分动态加载出来的数据值。但是通过观察我们会发现,通过浏览器进行url请求发送则会加载出对应的动态加载出的数据。那么如果我们想要在scrapy也获 阅读全文
posted @ 2019-01-15 19:06 熊猫大侠-呀呀呀!!! 阅读(253) 评论(0) 推荐(0)
摘要:一、下载中间件 图例: · 由上图可知,下载中间件(Downloader Middlewares) 位于scrapy引擎和下载器之间的一层组件。 - 作用: (1)引擎将请求传递给下载器过程中, 下载中间件可以对请求进行一系列处理。比如设置请求的 User-Agent,设置代理等 (2)在下载器完成 阅读全文
posted @ 2019-01-14 19:24 熊猫大侠-呀呀呀!!! 阅读(213) 评论(0) 推荐(0)
摘要:一、Scrapy的日志等级 - 在使用 scrapy crawl 爬虫文件名 运行程序时,在终端里打印输出的就是scrapy的日志信息。 - 日志信息的种类: ERROR : 一般错误 WARNING : 警告 INFO : 一般的信息 DEBUG : 调试信息 - 设置日志信息指定输出: 在set 阅读全文
posted @ 2019-01-14 16:18 熊猫大侠-呀呀呀!!! 阅读(233) 评论(0) 推荐(0)
摘要:一、五大核心组件工作流程 组件的介绍: Spiders(爬虫文件): 爬虫是主要干活的, 用于从特定的网页中提取自己需要的信息, 即所谓的实体(Item)。 用户也可以从中提取出链接,让Scrapy继续抓取下一个页面 Scrapy(引擎): 用来处理整个系统的数据流处理, 触发事务(框架核心) Sc 阅读全文
posted @ 2019-01-14 15:04 熊猫大侠-呀呀呀!!! 阅读(252) 评论(0) 推荐(0)
摘要:递归爬取解析多页页面数据 - 需求:将糗事百科所有页码的作者和段子内容数据进行爬取切持久化存储(这里储存到文件当中) - 需求分析:每一个页面对应一个url,则scrapy工程需要对每一个页码对应的url依次发起请求,然后通过对应的解析方法进行作者和段子内容的解析。 实现方案: 1.将每一个页码对应 阅读全文
posted @ 2019-01-14 14:14 熊猫大侠-呀呀呀!!! 阅读(160) 评论(0) 推荐(0)
摘要:一、 基于终端指令的持久化存储 保证爬虫文件的parse方法中有可迭代类型对象(通常为列表or字典)的返回,该返回值可以通过终端指令的形式写入指定格式的文件中进行持久化操作 1 # 基于终端指令的持久化储存 2 3 class BossSpider(scrapy.Spider): 4 name = 阅读全文
posted @ 2019-01-11 14:26 熊猫大侠-呀呀呀!!! 阅读(195) 评论(0) 推荐(0)
摘要:一、什么是Scrapy??? Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架,非常出名,非常强悍。 所谓的框架就是一个已经被集成了各种功能(高性能异步下载,队列,分布式,解析,持久化等)的具有很强通用性的项目模板。 对于框架的学习,重点是要学习其框架的特性、各个功能的用法即可。 阅读全文
posted @ 2019-01-10 15:09 熊猫大侠-呀呀呀!!! 阅读(159) 评论(0) 推荐(0)
摘要:前言 随着移动市场的火热,各大平台都陆陆续续的推出了自己的移动端APP来拉拢吸引和便捷其广大的用户。那么在移动端的平台当时势必会出现大量有价值的信息和数据,那这些数据我们是否可以去享用一下呢?那么接下来就进入我们的移动端APP数据的爬虫中来吧。 1 什么是Fiddler? Fiddler是位于客户端 阅读全文
posted @ 2019-01-10 13:05 熊猫大侠-呀呀呀!!! 阅读(131) 评论(0) 推荐(0)
摘要:一、selenium 什么是selenium? 是Python的一个第三方库,对外提供的接口可以操作浏览器,然后让浏览器完成自动化的操作。 环境搭建 安装selenum:pip install selenium 获取某一款浏览器的驱动程序(以谷歌浏览器为例) 谷歌浏览器驱动下载地址:http://c 阅读全文
posted @ 2019-01-10 13:05 熊猫大侠-呀呀呀!!! 阅读(442) 评论(0) 推荐(0)
摘要:乱码问题有三种解决方式,下面我们通过一个示例进行理解 示例: 爬取4k美女壁纸中的图片 http://pic.netbian.com/4kmeinv/ import requestsfrom lxml import etreeimport osfrom urllib import request i 阅读全文
posted @ 2019-01-09 20:54 熊猫大侠-呀呀呀!!! 阅读(204) 评论(0) 推荐(0)
摘要:引入: 相关的门户网站在进行登录的时候,如果用户连续登录的次数超过3次或者5次的时候,就会在登录页中动态生成验证码。通过验证码达到分流和反爬的效果。 今日概要: 使用云打码平台识别验证码 云打码官网地址: http://www.yundama.com/ 云打码使用流程: 注册:普通用户和开发者用户( 阅读全文
posted @ 2019-01-09 14:05 熊猫大侠-呀呀呀!!! 阅读(231) 评论(0) 推荐(0)
摘要:一、基于request模块的代理操作 什么是代理 代理就是第三方代替本体处理相关事务。例如:生活中的代理:代购,中介,微商...... 爬虫中为什么需要使用代理 一些网站会有相应的反爬虫措施,例如很多网站会检测某一段时间某个IP的访问次数,如果访问频率太快以至于看起来不像正常访客,它可能就会会禁止这 阅读全文
posted @ 2019-01-09 13:30 熊猫大侠-呀呀呀!!! 阅读(404) 评论(0) 推荐(0)
摘要:一、正则解析 二、Xpath解析 测试页面数据 1 <html lang="en"> 2 <head> 3 <meta charset="UTF-8" /> 4 <title>测试bs4</title> 5 </head> 6 <body> 7 <div> 8 <p>百里守约</p> 9 </div 阅读全文
posted @ 2019-01-08 14:05 熊猫大侠-呀呀呀!!! 阅读(249) 评论(0) 推荐(0)
摘要:456 阅读全文
posted @ 2019-01-08 10:04 熊猫大侠-呀呀呀!!! 阅读(65) 评论(0) 推荐(0)
摘要:789 阅读全文
posted @ 2019-01-08 10:04 熊猫大侠-呀呀呀!!! 阅读(52) 评论(0) 推荐(0)
摘要:159753 阅读全文
posted @ 2019-01-08 10:04 熊猫大侠-呀呀呀!!! 阅读(62) 评论(0) 推荐(0)
摘要:1234 阅读全文
posted @ 2019-01-08 10:03 熊猫大侠-呀呀呀!!! 阅读(96) 评论(0) 推荐(0)