2019 年 1月随笔档案 - Hear7

运维自动化-Ansible

摘要：前言天天说运维，究竟是干什么的？先看看工作流程呗。一般来说，运维工程师在一家企业里属于个位数的岗位，甚至只有一个。面对生产中NNN台服务器，NN个人员,工作量也是非常大的。所以嘛，图中的我好歹也会配置盔甲的。这就是我主要干的事情（呵呵）就算你会很厉害的脚本，面对成百上千，甚至上万的主机，效率问阅读全文

posted @ 2019-01-30 17:26 Hear7 阅读(455) 评论(0) 推荐(0) 编辑

爬虫之验证码处理

摘要：引入相关的门户网站在进行登录的时候，如果用户连续登录的次数超过3次或者5次的时候，就会在登录页中动态生成验证码。通过验证码达到分流和反爬的效果。验证码处理使用云打码平台识别验证码云打码平台处理验证码的实现流程： - 1.对携带验证码的页面数据进行抓取 - 2.可以将页面数据中验证码进行解析，阅读全文

posted @ 2019-01-24 20:14 Hear7 阅读(845) 评论(0) 推荐(0) 编辑

PaddlePaddle

摘要：2016 年 9 月 1 日的百度世界大会上，百度首席科学家吴恩达宣布，该公司开发的异构分布式深度学习系统 PaddlePaddle 将对外开放。这标志着国内第一个机器学习开源平台的诞生。其实，PaddlePaddle平台的开发与应用已经有段时日：它源自于 2013 年百度深度学习实验室创建的阅读全文

posted @ 2019-01-23 08:20 Hear7 阅读(602) 评论(0) 推荐(0) 编辑

Kaggle爆文：一个框架解决几乎所有机器学习问题

摘要：上周一个叫 Abhishek Thakur 的数据科学家，在他的 Linkedin 发表了一篇文章 Approaching (Almost) Any Machine Learning Problem，介绍他建立的一个自动的机器学习框架，几乎可以解决任何机器学习问题，项目很快也会发布出来。这篇文章迅阅读全文

posted @ 2019-01-19 17:45 Hear7 阅读(438) 评论(0) 推荐(0) 编辑

机器学习

摘要：机器学习阅读全文

posted @ 2019-01-19 09:13 Hear7 阅读(108) 评论(0) 推荐(0) 编辑

爬虫之增量式爬虫

摘要：- url是否爬过 - 数据是否爬过待更新。。。。。。。。。https://blog.csdn.net/yubei2155/article/details/79343893 阅读全文

posted @ 2019-01-18 17:28 Hear7 阅读(84) 评论(0) 推荐(0) 编辑

TensorFlow

摘要：关于TensorFlow TensorFlow™ 是一个采用数据流图（data flow graphs），用于数值计算的开源软件库。节点（Nodes）在图中表示数学操作，图中的线（edges）则表示在节点间相互联系的多维数据数组，即张量（tensor）。它灵活的架构让你可以在多种平台上展开计算，例如阅读全文

posted @ 2019-01-18 10:56 Hear7 阅读(172) 评论(0) 推荐(0) 编辑

反击爬虫，前端工程师的脑洞可以有多大？

摘要：1. 前言对于一张网页，我们往往希望它是结构良好，内容清晰的，这样搜索引擎才能准确地认知它。而反过来，又有一些情景，我们不希望内容能被轻易获取，比方说电商网站的交易额，教育网站的题目等。因为这些内容，往往是一个产品的生命线，必须做到有效地保护。这就是爬虫与反爬虫这一话题的由来。 2. 常见反爬虫策阅读全文

posted @ 2019-01-16 22:08 Hear7 阅读(235) 评论(0) 推荐(0) 编辑

解决 Scrapy-Redis 空跑问题，链接跑完后自动关闭爬虫

摘要：Scrapy-Redis 空跑问题，redis_key链接跑完后，自动关闭爬虫问题： scrapy-redis框架中，reids存储的xxx:requests已经爬取完毕，但程序仍然一直运行，如何自动停止程序，结束空跑。相信大家都很头疼，尤其是网上一堆搬来搬去的帖子，来看一下我是如何解决这个问阅读全文

posted @ 2019-01-16 21:54 Hear7 阅读(1096) 评论(0) 推荐(0) 编辑

数据清洗基本概念

摘要：1基本概念数据清洗从名字上也看的出就是把“脏”的“洗掉”，指发现并纠正数据文件中可识别的错误的最后一道程序，包括检查数据一致性，处理无效值和缺失值等。因为数据仓库中的数据是面向某一主题的数据的集合，这些数据从多个业务系统中抽取而来而且包含历史数据，这样就避免不了有的数据是错误数据、有的数据相互之阅读全文

posted @ 2019-01-16 21:52 Hear7 阅读(4157) 评论(0) 推荐(0) 编辑

前端常见的跨域请求解决方案

摘要：什么是跨域？跨域是指一个域下的文档或脚本试图去请求另一个域下的资源，这里跨域是广义的。广义的跨域： 1.) 资源跳转： A链接、重定向、表单提交 2.) 资源嵌入： <link>、<script>、<img>、<frame>等dom标签，还有样式中background:url()、@font-f 阅读全文

posted @ 2019-01-14 16:30 Hear7 阅读(1173) 评论(0) 推荐(0) 编辑

Pandas模块：表计算与数据分析

摘要：一、pandas简单介绍 1、pandas是一个强大的Python数据分析的工具包。2、pandas是基于NumPy构建的。 3、pandas的主要功能具备对其功能的数据结构DataFrame、Series 集成时间序列功能提供丰富的数学运算和操作灵活处理缺失数据 4、安装方法：pip ins 阅读全文

posted @ 2019-01-12 14:34 Hear7 阅读(284) 评论(0) 推荐(0) 编辑

Matplotlib模块：绘图和可视化

摘要：一、简单介绍Matplotlib 1、Matplotlib是一个强大的Python绘图和数据可视化的工具包 2、安装方法：pip install matplotlib 3、引用方法：import matplotlib.pyplot as plt 4、绘图函数：plt.plot() 5、显示图像：pl 阅读全文

posted @ 2019-01-11 21:38 Hear7 阅读(160) 评论(0) 推荐(0) 编辑

numpy如何使用

摘要：numpy介绍创建numpy的数组一维数组是什么样子可以理解为格子纸的一行就是一个一维数据 two_arr = np.array([1, 2, 3]) 二维数组什么样子理解为一张格子纸, 多个一维数组构成一个二维数组 two_arr = np.array([ [1, 2, 3], [4, 5 阅读全文

posted @ 2019-01-11 17:38 Hear7 阅读(289) 评论(0) 推荐(0) 编辑

Gerapy 使用详解

摘要：https://blog.csdn.net/fengltxx/article/details/79894839 阅读全文

posted @ 2019-01-11 14:59 Hear7 阅读(299) 评论(0) 推荐(0) 编辑

MySQL常见数据库引擎及比较

摘要：一：MySQL存储引擎简介 MySQL有多种存储引擎，每种存储引擎有各自的优缺点，大家可以择优选择使用：MyISAM、InnoDB、MERGE、MEMORY(HEAP)、BDB(BerkeleyDB)、EXAMPLE、FEDERATED、ARCHIVE、CSV、BLACKHOLE。 MySQL支持数阅读全文

posted @ 2019-01-10 21:07 Hear7 阅读(331) 评论(0) 推荐(0) 编辑

基于scrapy-redis组件的分布式爬虫

摘要：scrapy-redis组件安装分布式实现流程 scrapy-redis组件安装 - 下载scrapy-redis组件：pip install scrapy-redis - 更改redis配置文件：注释该行：bind 127.0.0.1，表示可以让其他ip访问redis 将yes该为no：pro 阅读全文

posted @ 2019-01-10 19:52 Hear7 阅读(223) 评论(0) 推荐(0) 编辑

Scrapy中的UA池，代理池，以及selenium的应用

摘要：UA池代理池 selenium在Scrapy中的应用 UA池 - 下载中间件： - 下载中间件（Downloader Middlewares）位于scrapy引擎和下载器之间的一层组件。 - 作用： - 引擎将请求传递给下载器过程中，下载中间件可以对请求进行一系列处理。比如设置请求的 User 阅读全文

posted @ 2019-01-10 19:51 Hear7 阅读(659) 评论(0) 推荐(0) 编辑

CrawlSpider

摘要：CrawlSpider简介 CrawlSpider使用 CrawlSpider简介 CrawlSpider其实是Spider的一个子类，除了继承到Spider的特性和功能外，还派生除了其自己独有的更加强大的特性和功能。其中最显著的功能就是”LinkExtractors链接提取器“。 Spider 阅读全文

posted @ 2019-01-10 19:48 Hear7 阅读(231) 评论(0) 推荐(0) 编辑

Scrapy持久化存储

摘要：基于终端指令的持久化存储基于管道的持久化存储基于mysql的管道存储基于redis的管道存储基于终端指令的持久化存储 - 保证爬虫文件的parse方法中有可迭代类型对象（通常为列表or字典）的返回，该返回值可以通过终端指令的形式写入指定格式的文件中进行持久化操作； - 执行输出指定格式进行存阅读全文

posted @ 2019-01-10 19:47 Hear7 阅读(150) 评论(0) 推荐(0) 编辑

Scrapy日志等级以及请求传参

摘要：日志等级请求传参提高scrapy的爬取效率日志等级 - 日志信息：使用命令：scrapy crawl 爬虫文件运行程序时，在终端输出的就是日志信息； - 日志信息的种类： - ERROR：一般错误； - WARNING：警告； - INFO：一般的信息； - DEBUG：调试信息； - 阅读全文

posted @ 2019-01-10 19:46 Hear7 阅读(245) 评论(0) 推荐(0) 编辑

Scrapy中的核心工作流程以及POST请求

摘要：五大核心组件工作流程 post请求发送递归爬取五大核心组件工作流程引擎(Scrapy)用来处理整个系统的数据流处理, 触发事务(框架核心) 调度器(Scheduler)用来接受引擎发过来的请求, 压入队列中, 并在引擎再次请求的时候返回. 可以想像成一个URL（抓取网页的网址或者说是链接）的优阅读全文

posted @ 2019-01-10 19:39 Hear7 阅读(252) 评论(0) 推荐(0) 编辑

RabbitMQ-2

摘要：工作队列（任务队列）群发路由使用topic exchange RPC 简介 RabbitMQ：接受消息再传递消息，可以视为一个“邮局”。发送者和接受者通过队列来进行交互，队列的大小可以视为无限的，多个发送者可以发生给一个队列，多个接收者也可以从一个队列中接受消息。 code rabbitmq使阅读全文

posted @ 2019-01-10 10:03 Hear7 阅读(120) 评论(0) 推荐(0) 编辑

RabbitMQ-1

摘要：RabbitMQ 什么叫消息队列消息（Message）是指在应用间传送的数据。消息可以非常简单，比如只包含文本字符串，也可以更复杂，可能包含嵌入对象。消息队列（Message Queue）是一种应用间的通信方式，消息发送后可以立即返回，由消息系统来确保消息的可靠传递。消息发布者只管把消息发布到阅读全文

posted @ 2019-01-10 10:01 Hear7 阅读(125) 评论(0) 推荐(0) 编辑

Scrapy框架

摘要：Scrapy简介环境安装基础命令 settings配置文件 Scrapy简介 Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架，非常出名，非常强悍。所谓的框架就是一个已经被集成了各种功能（高性能异步下载，队列，分布式，解析，持久化等）的具有很强通用性的项目模板。对于框架的学阅读全文

posted @ 2019-01-09 22:06 Hear7 阅读(145) 评论(0) 推荐(0) 编辑

终于有人把云计算、大数据和人工智能讲明白了！

摘要：此文已由作者刘超授权网易云社区发布。转载地址:https://sq.163yun.com/blog/article/217814081753378816 今天跟大家讲讲云计算、大数据和人工智能。为什么讲这三个东西呢？因为这三个东西现在非常火，并且它们之间好像互相有关系：一般谈云计算的时候会提到大数据阅读全文

posted @ 2019-01-09 21:53 Hear7 阅读(235) 评论(0) 推荐(0) 编辑

爬虫之移动端数据爬取

摘要：前言随着移动市场的火热，各大平台都陆陆续续的推出了自己的移动端APP来拉拢吸引和便捷其广大的用户。那么在移动端的平台当时势必会出现大量有价值的信息和数据，那这些数据我们是否可以去享用一下呢？那么接下来就进入我们的移动端APP数据的爬虫中来吧。移动端数据爬取方式 fiddler简介手机APP抓包阅读全文

posted @ 2019-01-09 16:41 Hear7 阅读(2095) 评论(0) 推荐(0) 编辑

Python网络爬虫之图片懒加载技术、selenium和PhantomJS

摘要：动态数据加载处理方式图片懒加载 selenium phantomJs 谷歌无头浏览器一.图片懒加载什么是图片懒加载？案例分析：抓取站长素材http://sc.chinaz.com/中的图片数据 #!/usr/bin/env python # -*- coding:utf-8 -*- impo 阅读全文

posted @ 2019-01-09 16:38 Hear7 阅读(462) 评论(0) 推荐(0) 编辑

强烈推荐！！！Fiddler抓取https设置详解（图文）

摘要：本文主要说明了自己在设置fiddler抓取https过程中所遇到的问题及解决步骤，特别是fiddler在设置证书的环节遇到的各种奇葩问题，特此分享！声明：本文为原创文章，转载请注明来源：https://www.cnblogs.com/joshua317/p/8670923.html 很多使用fid 阅读全文

posted @ 2019-01-08 21:20 Hear7 阅读(207) 评论(0) 推荐(0) 编辑

爬虫中之Requests 模块的进阶

摘要：requests进阶内容 session处理cookie proxies参数设置请求代理ip 基于线程池的数据爬取引入有些时候，我们在使用爬虫程序去爬取一些用户相关信息的数据（爬取张三“人人网”个人主页数据）时，如果使用之前requests模块常规操作时，往往达不到我们想要的目的，例如： #!/ 阅读全文

posted @ 2019-01-07 22:04 Hear7 阅读(410) 评论(0) 推荐(0) 编辑

python之网络爬虫

摘要：爬虫简介 requests模块数据解析三大方法 selenium scrapy框架处理验证码移动端数据爬取爬虫简介 - 什么是爬虫：爬虫就是通过编写程序模拟浏览器上网，然后让其去互联网上抓取数据的过程。 - 爬虫的分类： """ - 通用爬虫：通用爬虫是搜索引擎（Baidu、Google 阅读全文

posted @ 2019-01-07 22:00 Hear7 阅读(253) 评论(0) 推荐(0) 编辑

git使用(一)----git安装

摘要：windows安装git msysgit是windows版本的Git 下载地址：https://git-for-windows.github.io/ 安装步骤 linux安装git https://git-scm.com/download/linux git的官网对不同的linux版本安装进行了说明阅读全文

posted @ 2019-01-07 21:57 Hear7 阅读(184) 评论(0) 推荐(0) 编辑

SQLAlchemy 增删改查一对多多对多

摘要：安装介绍创建增删改查相关操作高级版查询操作高级版更新操作扩展内容安装介绍 - SQLAlchemy 是Python的一款Orm框架创建 from sqlalchemy import create_engine from sqlalchemy.ext.declarative import 阅读全文

posted @ 2019-01-07 21:27 Hear7 阅读(917) 评论(0) 推荐(0) 编辑

01.jupyter环境安装

摘要：jupyter notebook环境安装一、什么是Jupyter Notebook？ 1. 简介 Jupyter Notebook是基于网页的用于交互计算的应用程序。其可被应用于全过程计算：开发、文档编写、运行代码和展示结果。——Jupyter Notebook官方介绍简而言之，Jupyter 阅读全文

posted @ 2019-01-07 21:20 Hear7 阅读(117) 评论(0) 推荐(0) 编辑

在量化金融中15个最流行的Python数据分析库

摘要：Python是当今应用最广泛的编程语言之一，以其效率和代码可读性著称。作为一个科学数据的编程语言，Python介于R和java之间，前者主要集中在数据分析和可视化，而后者主要应用于大型应用。这种灵活性意味着Python可以作为一个单一工具来汇集整个工作流。也就是说Python本身是被允许扩充的，并非阅读全文

posted @ 2019-01-05 18:21 Hear7 阅读(888) 评论(0) 推荐(0) 编辑

Python金融量化

摘要：Python股票数据分析最近在学习基于python的股票数据分析，其中主要用到了tushare和seaborn。tushare是一款财经类数据接口包，国内的股票数据还是比较全的官网地址：http://tushare.waditu.com/index.html#id5。seaborn则是一款绘图库阅读全文

posted @ 2019-01-05 18:17 Hear7 阅读(1265) 评论(1) 推荐(0) 编辑

十大经典排序算法动画与解析，看我就够了！（配代码完全版）

摘要：排序算法是《数据结构与算法》中最基本的算法之一。排序算法可以分为内部排序和外部排序。内部排序是数据记录在内存中进行排序。而外部排序是因排序的数据很大，一次不能容纳全部的排序记录，在排序过程中需要访问外存。常见的内部排序算法有：插入排序、希尔排序、选择排序、冒泡排序、归并排序、快速排序、堆排序阅读全文

posted @ 2019-01-05 14:19 Hear7 阅读(300) 评论(0) 推荐(0) 编辑

做开发十年，我总结出了这些开发经验

摘要：本文由云+社区发表,原文转载地址:https://www.cnblogs.com/qcloud1001/p/10218876.html 在一线做了十年的开发，经历了网易、百度、腾讯研究院、MIG 等几个地方，陆续做过 3D 游戏、2D 页游、浏览器、移动端翻译 app 等。积累了一些感悟。必然有依阅读全文

posted @ 2019-01-05 13:58 Hear7 阅读(205) 评论(0) 推荐(0) 编辑

VUE基础入门

摘要：VUE基础目录： ES6常用语法 Vue基础以及指令 Vue组件 Vue-Router Vue生命周期 npm webpack vue-cli Vuex以及axios 更多详情请见Vue官网 VUE基础目录： ES6常用语法 Vue基础以及指令 Vue组件 VUE基础目录： ES6常用语法 Vue基阅读全文

posted @ 2019-01-03 17:07 Hear7 阅读(112) 评论(0) 推荐(0) 编辑

$.ajax 和$.post的区别

摘要：https://blog.csdn.net/weixin_39709686/article/details/78680754 阅读全文

posted @ 2019-01-02 14:05 Hear7 阅读(292) 评论(0) 推荐(0) 编辑

HTTP协议和HTTPS协议

摘要：一.HTTP协议 1.官方概念： HTTP协议是Hyper Text Transfer Protocol（超文本传输协议）的缩写,是用于从万维网（WWW:World Wide Web ）服务器传输超文本到本地浏览器的传送协议。（虽然童鞋们将这条概念都看烂了，但是也没办法，毕竟这就是HTTP的权威官方阅读全文

posted @ 2019-01-02 14:03 Hear7 阅读(245) 评论(0) 推荐(0) 编辑

爬虫基础和入门

摘要：详情请戳爬虫基础介绍爬虫基本流程爬虫之Urllib库的基本使用 http和https协议 requests模块 requests模块进阶数据解析验证码处理动态数据加载移动端数据爬取 scrapy框架基础 scrapy持久化存储 scrapy递归解析和post请求日志等级和请求传参 U 阅读全文

posted @ 2019-01-02 11:30 Hear7 阅读(143) 评论(0) 推荐(0) 编辑

Hear7

01 2019 档案

公告

搜索

常用链接

我的标签

随笔分类

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论