01 2019 档案

摘要:前言 天天说运维,究竟是干什么的?先看看工作流程呗。一般来说,运维工程师在一家企业里属于个位数的岗位,甚至只有一个。面对生产中NNN台服务器,NN个人员,工作量也是非常大的。所以嘛,图中的我好歹也会配置盔甲的。 这就是我主要干的事情(呵呵) 就算你会很厉害的脚本,面对成百上千,甚至上万的主机,效率问 阅读全文
posted @ 2019-01-30 17:26 Hear7 阅读(455) 评论(0) 推荐(0) 编辑
摘要:引入 相关的门户网站在进行登录的时候,如果用户连续登录的次数超过3次或者5次的时候,就会在登录页中动态生成验证码。通过验证码达到分流和反爬的效果。 验证码处理 使用云打码平台识别验证码 云打码平台处理验证码的实现流程: - 1.对携带验证码的页面数据进行抓取 - 2.可以将页面数据中验证码进行解析, 阅读全文
posted @ 2019-01-24 20:14 Hear7 阅读(845) 评论(0) 推荐(0) 编辑
摘要:2016 年 9 月 1 日的百度世界大会上,百度首席科学家吴恩达宣布,该公司开发的异构分布式深度学习系统 PaddlePaddle 将对外开放。这标志着国内第一个机器学习开源平台的诞生。 其实,PaddlePaddle平台 的开发与应用已经有段时日:它源自于 2013 年百度深度学习实验室创建的 阅读全文
posted @ 2019-01-23 08:20 Hear7 阅读(602) 评论(0) 推荐(0) 编辑
摘要:上周一个叫 Abhishek Thakur 的数据科学家,在他的 Linkedin 发表了一篇文章 Approaching (Almost) Any Machine Learning Problem,介绍他建立的一个自动的机器学习框架,几乎可以解决任何机器学习问题,项目很快也会发布出来。 这篇文章迅 阅读全文
posted @ 2019-01-19 17:45 Hear7 阅读(438) 评论(0) 推荐(0) 编辑
摘要:机器学习 阅读全文
posted @ 2019-01-19 09:13 Hear7 阅读(108) 评论(0) 推荐(0) 编辑
摘要:- url是否爬过 - 数据是否爬过待更新。。。。。。。。。https://blog.csdn.net/yubei2155/article/details/79343893 阅读全文
posted @ 2019-01-18 17:28 Hear7 阅读(84) 评论(0) 推荐(0) 编辑
摘要:关于TensorFlow TensorFlow™ 是一个采用数据流图(data flow graphs),用于数值计算的开源软件库。节点(Nodes)在图中表示数学操作,图中的线(edges)则表示在节点间相互联系的多维数据数组,即张量(tensor)。它灵活的架构让你可以在多种平台上展开计算,例如 阅读全文
posted @ 2019-01-18 10:56 Hear7 阅读(172) 评论(0) 推荐(0) 编辑
摘要:1. 前言 对于一张网页,我们往往希望它是结构良好,内容清晰的,这样搜索引擎才能准确地认知它。而反过来,又有一些情景,我们不希望内容能被轻易获取,比方说电商网站的交易额,教育网站的题目等。因为这些内容,往往是一个产品的生命线,必须做到有效地保护。这就是爬虫与反爬虫这一话题的由来。 2. 常见反爬虫策 阅读全文
posted @ 2019-01-16 22:08 Hear7 阅读(235) 评论(0) 推荐(0) 编辑
摘要:Scrapy-Redis 空跑问题,redis_key链接跑完后,自动关闭爬虫 问题: scrapy-redis框架中,reids存储的xxx:requests已经爬取完毕,但程序仍然一直运行,如何自动停止程序,结束空跑。 相信大家都很头疼,尤其是网上一堆搬来搬去的帖子,来看一下 我是如何解决这个问 阅读全文
posted @ 2019-01-16 21:54 Hear7 阅读(1096) 评论(0) 推荐(0) 编辑
摘要:1基本概念 数据清洗从名字上也看的出就是把“脏”的“洗掉”,指发现并纠正数据文件中可识别的错误的最后一道程序,包括检查数据一致性,处理无效值和缺失值等。 因为数据仓库中的数据是面向某一主题的数据的集合,这些数据从多个业务系统中抽取而来而且包含历史数据,这样就避免不了有的数据是错误数据、有的数据相互之 阅读全文
posted @ 2019-01-16 21:52 Hear7 阅读(4157) 评论(0) 推荐(0) 编辑
摘要:什么是跨域? 跨域是指一个域下的文档或脚本试图去请求另一个域下的资源,这里跨域是广义的。 广义的跨域: 1.) 资源跳转: A链接、重定向、表单提交 2.) 资源嵌入: <link>、<script>、<img>、<frame>等dom标签,还有样式中background:url()、@font-f 阅读全文
posted @ 2019-01-14 16:30 Hear7 阅读(1173) 评论(0) 推荐(0) 编辑
摘要:一、pandas简单介绍 1、pandas是一个强大的Python数据分析的工具包。2、pandas是基于NumPy构建的。 3、pandas的主要功能 具备对其功能的数据结构DataFrame、Series 集成时间序列功能 提供丰富的数学运算和操作 灵活处理缺失数据 4、安装方法:pip ins 阅读全文
posted @ 2019-01-12 14:34 Hear7 阅读(284) 评论(0) 推荐(0) 编辑
摘要:一、简单介绍Matplotlib 1、Matplotlib是一个强大的Python绘图和数据可视化的工具包 2、安装方法:pip install matplotlib 3、引用方法:import matplotlib.pyplot as plt 4、绘图函数:plt.plot() 5、显示图像:pl 阅读全文
posted @ 2019-01-11 21:38 Hear7 阅读(160) 评论(0) 推荐(0) 编辑
摘要:numpy介绍 创建numpy的数组 一维数组是什么样子 可以理解为格子纸的一行就是一个一维数据 two_arr = np.array([1, 2, 3]) 二维数组什么样子 理解为一张格子纸, 多个一维数组构成一个二维数组 two_arr = np.array([ [1, 2, 3], [4, 5 阅读全文
posted @ 2019-01-11 17:38 Hear7 阅读(289) 评论(0) 推荐(0) 编辑
摘要:https://blog.csdn.net/fengltxx/article/details/79894839 阅读全文
posted @ 2019-01-11 14:59 Hear7 阅读(299) 评论(0) 推荐(0) 编辑
摘要:一:MySQL存储引擎简介 MySQL有多种存储引擎,每种存储引擎有各自的优缺点,大家可以择优选择使用:MyISAM、InnoDB、MERGE、MEMORY(HEAP)、BDB(BerkeleyDB)、EXAMPLE、FEDERATED、ARCHIVE、CSV、BLACKHOLE。 MySQL支持数 阅读全文
posted @ 2019-01-10 21:07 Hear7 阅读(331) 评论(0) 推荐(0) 编辑
摘要:scrapy-redis组件安装 分布式实现流程 scrapy-redis组件安装 - 下载scrapy-redis组件:pip install scrapy-redis - 更改redis配置文件: 注释该行:bind 127.0.0.1,表示可以让其他ip访问redis 将yes该为no:pro 阅读全文
posted @ 2019-01-10 19:52 Hear7 阅读(223) 评论(0) 推荐(0) 编辑
摘要:UA池 代理池 selenium在Scrapy中的应用 UA池 - 下载中间件: - 下载中间件(Downloader Middlewares) 位于scrapy引擎和下载器之间的一层组件。 - 作用: - 引擎将请求传递给下载器过程中, 下载中间件可以对请求进行一系列处理。比如设置请求的 User 阅读全文
posted @ 2019-01-10 19:51 Hear7 阅读(659) 评论(0) 推荐(0) 编辑
摘要:CrawlSpider简介 CrawlSpider使用 CrawlSpider简介 CrawlSpider其实是Spider的一个子类,除了继承到Spider的特性和功能外, 还派生除了其自己独有的更加强大的特性和功能。 其中最显著的功能就是”LinkExtractors链接提取器“。 Spider 阅读全文
posted @ 2019-01-10 19:48 Hear7 阅读(231) 评论(0) 推荐(0) 编辑
摘要:基于终端指令的持久化存储 基于管道的持久化存储 基于mysql的管道存储 基于redis的管道存储 基于终端指令的持久化存储 - 保证爬虫文件的parse方法中有可迭代类型对象(通常为列表or字典)的返回,该返回值可以通过终端指令的形式写入指定格式的文件中进行持久化操作; - 执行输出指定格式进行存 阅读全文
posted @ 2019-01-10 19:47 Hear7 阅读(150) 评论(0) 推荐(0) 编辑
摘要:日志等级 请求传参 提高scrapy的爬取效率 日志等级 - 日志信息: 使用命令:scrapy crawl 爬虫文件 运行程序时,在终端输出的就是日志信息; - 日志信息的种类: - ERROR:一般错误; - WARNING:警告; - INFO:一般的信息; - DEBUG: 调试信息; - 阅读全文
posted @ 2019-01-10 19:46 Hear7 阅读(245) 评论(0) 推荐(0) 编辑
摘要:五大核心组件工作流程 post请求发送 递归爬取 五大核心组件工作流程 引擎(Scrapy)用来处理整个系统的数据流处理, 触发事务(框架核心) 调度器(Scheduler)用来接受引擎发过来的请求, 压入队列中, 并在引擎再次请求的时候返回. 可以想像成一个URL(抓取网页的网址或者说是链接)的优 阅读全文
posted @ 2019-01-10 19:39 Hear7 阅读(252) 评论(0) 推荐(0) 编辑
摘要:工作队列(任务队列) 群发 路由 使用topic exchange RPC 简介 RabbitMQ:接受消息再传递消息,可以视为一个“邮局”。发送者和接受者通过队列来进行交互,队列的大小可以视为无限的,多个发送者可以发生给一个队列,多个接收者也可以从一个队列中接受消息。 code rabbitmq使 阅读全文
posted @ 2019-01-10 10:03 Hear7 阅读(120) 评论(0) 推荐(0) 编辑
摘要:RabbitMQ 什么叫消息队列 消息(Message)是指在应用间传送的数据。消息可以非常简单,比如只包含文本字符串,也可以更复杂,可能包含嵌入对象。 消息队列(Message Queue)是一种应用间的通信方式,消息发送后可以立即返回,由消息系统来确保消息的可靠传递。消息发布者只管把消息发布到 阅读全文
posted @ 2019-01-10 10:01 Hear7 阅读(125) 评论(0) 推荐(0) 编辑
摘要:Scrapy简介 环境安装 基础命令 settings配置文件 Scrapy简介 Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架, 非常出名,非常强悍。所谓的框架就是一个已经被集成了各种功能(高性能异步下载,队列,分布式,解析,持久化等)的具有很强通用性的项目模板。 对于框架的学 阅读全文
posted @ 2019-01-09 22:06 Hear7 阅读(145) 评论(0) 推荐(0) 编辑
摘要:此文已由作者刘超授权网易云社区发布。转载地址:https://sq.163yun.com/blog/article/217814081753378816 今天跟大家讲讲云计算、大数据和人工智能。为什么讲这三个东西呢?因为这三个东西现在非常火,并且它们之间好像互相有关系:一般谈云计算的时候会提到大数据 阅读全文
posted @ 2019-01-09 21:53 Hear7 阅读(235) 评论(0) 推荐(0) 编辑
摘要:前言 随着移动市场的火热,各大平台都陆陆续续的推出了自己的移动端APP来拉拢吸引和便捷其广大的用户。那么在移动端的平台当时势必会出现大量有价值的信息和数据,那这些数据我们是否可以去享用一下呢?那么接下来就进入我们的移动端APP数据的爬虫中来吧。 移动端数据爬取方式 fiddler简介 手机APP抓包 阅读全文
posted @ 2019-01-09 16:41 Hear7 阅读(2095) 评论(0) 推荐(0) 编辑
摘要:动态数据加载处理方式 图片懒加载 selenium phantomJs 谷歌无头浏览器 一.图片懒加载 什么是图片懒加载? 案例分析:抓取站长素材http://sc.chinaz.com/中的图片数据 #!/usr/bin/env python # -*- coding:utf-8 -*- impo 阅读全文
posted @ 2019-01-09 16:38 Hear7 阅读(462) 评论(0) 推荐(0) 编辑
摘要:本文主要说明了自己在设置fiddler抓取https过程中所遇到的问题及解决步骤,特别是fiddler在设置证书的环节遇到的各种奇葩问题,特此分享! 声明:本文为原创文章,转载请注明来源:https://www.cnblogs.com/joshua317/p/8670923.html 很多使用fid 阅读全文
posted @ 2019-01-08 21:20 Hear7 阅读(207) 评论(0) 推荐(0) 编辑
摘要:requests进阶内容 session处理cookie proxies参数设置请求代理ip 基于线程池的数据爬取 引入 有些时候,我们在使用爬虫程序去爬取一些用户相关信息的数据(爬取张三“人人网”个人主页数据)时,如果使用之前requests模块常规操作时,往往达不到我们想要的目的,例如: #!/ 阅读全文
posted @ 2019-01-07 22:04 Hear7 阅读(410) 评论(0) 推荐(0) 编辑
摘要:爬虫简介 requests模块 数据解析三大方法 selenium scrapy框架 处理验证码 移动端数据爬取 爬虫简介 - 什么是爬虫: 爬虫就是通过编写程序模拟浏览器上网,然后让其去互联网上抓取数据的过程。 - 爬虫的分类: """ - 通用爬虫: 通用爬虫是搜索引擎(Baidu、Google 阅读全文
posted @ 2019-01-07 22:00 Hear7 阅读(253) 评论(0) 推荐(0) 编辑
摘要:windows安装git msysgit是windows版本的Git 下载地址:https://git-for-windows.github.io/ 安装步骤 linux安装git https://git-scm.com/download/linux git的官网对不同的linux版本安装进行了说明 阅读全文
posted @ 2019-01-07 21:57 Hear7 阅读(184) 评论(0) 推荐(0) 编辑
摘要:安装介绍 创建 增删改查相关操作 高级版查询操作 高级版更新操作 扩展内容 安装介绍 - SQLAlchemy 是Python的一款Orm框架 创建 from sqlalchemy import create_engine from sqlalchemy.ext.declarative import 阅读全文
posted @ 2019-01-07 21:27 Hear7 阅读(917) 评论(0) 推荐(0) 编辑
摘要:jupyter notebook环境安装 一、什么是Jupyter Notebook? 1. 简介 Jupyter Notebook是基于网页的用于交互计算的应用程序。其可被应用于全过程计算:开发、文档编写、运行代码和展示结果。——Jupyter Notebook官方介绍 简而言之,Jupyter 阅读全文
posted @ 2019-01-07 21:20 Hear7 阅读(117) 评论(0) 推荐(0) 编辑
摘要:Python是当今应用最广泛的编程语言之一,以其效率和代码可读性著称。作为一个科学数据的编程语言,Python介于R和java之间,前者主要集中在数据分析和可视化,而后者主要应用于大型应用。这种灵活性意味着Python可以作为一个单一工具来汇集整个工作流。也就是说Python本身是被允许扩充的,并非 阅读全文
posted @ 2019-01-05 18:21 Hear7 阅读(888) 评论(0) 推荐(0) 编辑
摘要:Python股票数据分析 最近在学习基于python的股票数据分析,其中主要用到了tushare和seaborn。tushare是一款财经类数据接口包,国内的股票数据还是比较全的 官网地址:http://tushare.waditu.com/index.html#id5。seaborn则是一款绘图库 阅读全文
posted @ 2019-01-05 18:17 Hear7 阅读(1265) 评论(1) 推荐(0) 编辑
摘要:排序算法是《数据结构与算法》中最基本的算法之一。 排序算法可以分为内部排序和外部排序。 内部排序是数据记录在内存中进行排序。 而外部排序是因排序的数据很大,一次不能容纳全部的排序记录,在排序过程中需要访问外存。 常见的内部排序算法有:插入排序、希尔排序、选择排序、冒泡排序、归并排序、快速排序、堆排序 阅读全文
posted @ 2019-01-05 14:19 Hear7 阅读(300) 评论(0) 推荐(0) 编辑
摘要:本文由云+社区发表,原文转载地址:https://www.cnblogs.com/qcloud1001/p/10218876.html 在一线做了十年的开发,经历了网易、百度、腾讯研究院、MIG 等几个地方,陆续做过 3D 游戏、2D 页游、浏览器、移动端翻译 app 等。 积累了一些感悟。必然有依 阅读全文
posted @ 2019-01-05 13:58 Hear7 阅读(205) 评论(0) 推荐(0) 编辑
摘要:VUE基础目录: ES6常用语法 Vue基础以及指令 Vue组件 Vue-Router Vue生命周期 npm webpack vue-cli Vuex以及axios 更多详情请见Vue官网 VUE基础目录: ES6常用语法 Vue基础以及指令 Vue组件 VUE基础目录: ES6常用语法 Vue基 阅读全文
posted @ 2019-01-03 17:07 Hear7 阅读(112) 评论(0) 推荐(0) 编辑
摘要:https://blog.csdn.net/weixin_39709686/article/details/78680754 阅读全文
posted @ 2019-01-02 14:05 Hear7 阅读(292) 评论(0) 推荐(0) 编辑
摘要:一.HTTP协议 1.官方概念: HTTP协议是Hyper Text Transfer Protocol(超文本传输协议)的缩写,是用于从万维网(WWW:World Wide Web )服务器传输超文本到本地浏览器的传送协议。(虽然童鞋们将这条概念都看烂了,但是也没办法,毕竟这就是HTTP的权威官方 阅读全文
posted @ 2019-01-02 14:03 Hear7 阅读(245) 评论(0) 推荐(0) 编辑
摘要:详情请戳 爬虫基础介绍 爬虫基本流程 爬虫之Urllib库的基本使用 http和https协议 requests模块 requests模块进阶 数据解析 验证码处理 动态数据加载 移动端数据爬取 scrapy框架基础 scrapy持久化存储 scrapy递归解析和post请求 日志等级和请求传参 U 阅读全文
posted @ 2019-01-02 11:30 Hear7 阅读(143) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示