2019 年 6月 20 日随笔档案 - remainsu

2019年6月20日

摘要： 1. 建立连接from elasticsearch import Elasticsearches = Elasticsearch(["localhost:9200"])2. 查询所有数据# 方式1：es.search(index="index_name", doc_type="type_name") # 方式2：body = { "query":{ "match_all":{}... 阅读全文

posted @ 2019-06-20 23:25 remainsu 阅读(20366) 评论(1) 推荐(1)

python查询elasticsearch（Query DSL）实例

摘要： import datetimeimport sysimport getoptimport hashlibfrom elasticsearch import Elasticsearch"""初始化elasticsearch连接"""def init_es(): return Elasticsearch(["localhost:9200"])"""查询数据, 支持分页"""def query_d... 阅读全文

posted @ 2019-06-20 23:24 remainsu 阅读(233) 评论(0) 推荐(0)

python连接 elasticsearch 查询数据，支持分页

摘要：使用python连接es并执行最基本的查询from elasticsearch import Elasticsearches = Elasticsearch(["localhost:9200"])para = {"_source":"message"}es.search(index=index_name, q='offset: xx', doc_type='doc' ,params=para, s... 阅读全文

posted @ 2019-06-20 23:24 remainsu 阅读(856) 评论(2) 推荐(0)

filebeat直连elasticsearch利用pipeline提取message中的字段

摘要：这里使用filebeat直连elasticsearch的形式完成数据传输，由于没有logstash，所有对于原始数据的过滤略显尴尬（logstash的filter非常强大）。但是由于业务需求，还是需要将message（原始数据）中的某些字段进行提取，具体方式如下：1. /path/目录下建立pipeline.json文件{ "description" : "test-pipeline", "... 阅读全文

posted @ 2019-06-20 23:19 remainsu 阅读(975) 评论(0) 推荐(0)

flume1.9 用户指南（中文版）

摘要：概述Apache Flume是一个分布式，可靠且可用的系统，用于有效地从许多不同的source收集，聚合和移动大量日志数据到集中式数据存储。Apache Flume的使用不仅限于日志数据聚合。由于数据source是可定制的，因此Flume可用于传输大量event 数据，包括但不限于网络流量数据，社交媒体生成的数据，电子邮件消息以及几乎任何可能的数据source。Apache Flume是Apach... 阅读全文

posted @ 2019-06-20 23:04 remainsu 阅读(1467) 评论(0) 推荐(0)

设计模式 - 单例模式

摘要：单例模式（Singleton Pattern）是 Java 中最简单的设计模式之一。这种类型的设计模式属于创建型模式，它提供了一种创建对象的最佳方式。这种模式涉及到一个单一的类，该类负责创建自己的对象，同时确保只有单个对象被创建。这个类提供了一种访问其唯一的对象的方式，可以直接访问，不需要实例化该类的对象。注意：单例类只能有一个实例。单例类必须自己创建自己的唯一实例。单例类必须给所有其他对象提供这... 阅读全文

posted @ 2019-06-20 23:02 remainsu 阅读(138) 评论(0) 推荐(0)

Java Volatile 关键字详解

摘要：原文链接：https://www.cnblogs.com/zhengbin/p/5654805.html一、基本概念先补充一下概念：Java 内存模型中的可见性、原子性和有序性。可见性：可见性是一种复杂的属性，因为可见性中的错误总是会违背我们的直觉。通常，我们无法确保执行读操作的线程能适时地看到其他线程写入的值，有时甚至是根本不可能的事情。为了确保多个线程之间对内存写入操作的可见性，必须使用同... 阅读全文

posted @ 2019-06-20 23:01 remainsu 阅读(399) 评论(2) 推荐(0)

设计模式 - 抽象工厂模式

摘要：抽象工厂模式（Abstract Factory Pattern）是围绕一个超级工厂创建其他工厂。该超级工厂又称为其他工厂的工厂。这种类型的设计模式属于创建型模式，它提供了一种创建对象的最佳方式。在抽象工厂模式中，接口是负责创建一个相关对象的工厂，不需要显式指定它们的类。每个生成的工厂都能按照工厂模式提供对象。介绍意图：提供一个创建一系列相关或相互依赖对象的接口，而无需指定它们具体的类。优点：当一个... 阅读全文

posted @ 2019-06-20 23:00 remainsu 阅读(125) 评论(0) 推荐(0)

设计模式 - 工厂模式

摘要：工厂模式（Factory Pattern）是 Java 中最常用的设计模式之一。这种类型的设计模式属于创建型模式，它提供了一种创建对象的最佳方式。在工厂模式中，我们在创建对象时不会对客户端暴露创建逻辑，并且是通过使用一个共同的接口来指向新创建的对象。通俗解释：简单工厂，就是有一个专门生产某个产品的类。介绍意图：定义一个创建对象的接口，让其子类自己决定实例化哪一个工厂类，工厂模式使其创建过程延迟到子... 阅读全文

posted @ 2019-06-20 22:59 remainsu 阅读(269) 评论(0) 推荐(0)

java 希尔排序

摘要：思路希尔排序是希尔（Donald Shell）于1959年提出的一种排序算法。希尔排序也是一种插入排序，它是简单插入排序经过改进之后的一个更高效的版本，也称为缩小增量排序，同时该算法是冲破O(n2）的第一批算法之一。它与插入排序的不同之处在于，它会优先比较距离较远的元素。希尔排序又叫缩小增量排序。希尔排序是把记录按下表的一定增量分组，对每组使用直接插入排序算法排序；随着增量逐渐减少，每组包含的关键... 阅读全文

posted @ 2019-06-20 18:45 remainsu 阅读(1475) 评论(0) 推荐(0)

java 插入排序

摘要：思路通过构建有序序列，对于未排序数据，在已排序序列中从后向前扫描，找到相应位置并插入。插入排序在实现上，通常采用in-place排序（即只需用到O(1)的额外空间的排序），因而在从后向前扫描过程中，需要反复把已排序元素逐步向后挪位，为最新元素提供插入空间。时间复杂度最佳情况：T(n) = O(n) 最坏情况：T(n) = O(n2) 平均情况：T(n) = O(n2)代码import ja... 阅读全文

posted @ 2019-06-20 18:44 remainsu 阅读(485) 评论(0) 推荐(0)

java 选择排序

摘要：思路首先在未排序序列中找到最小（大）元素，存放到排序序列的起始位置，然后，再从剩余未排序元素中继续寻找最小（大）元素，然后放到已排序序列的末尾。以此类推，直到所有元素均排序完毕。时间复杂度最佳情况：T(n) = O(n2) 最差情况：T(n) = O(n2) 平均情况：T(n) = O(n2)代码import java.util.Arrays;/** * 简单选择排序 * @author re... 阅读全文

posted @ 2019-06-20 18:41 remainsu 阅读(9257) 评论(0) 推荐(2)

java 枚举

摘要：未经同意就转载了，如有问题，请留言，会第一时间删除原文链接：https://www.cnblogs.com/hyl8218/p/5088287.htmlenum 的全称为 enumeration，是 JDK 1.5 中引入的新特性，存放在 java.lang 包中。下面是我在使用 enum 过程中的一些经验和总结，主要包括如下内容：1. 原始的接口定义常量public interface IC... 阅读全文

posted @ 2019-06-20 18:40 remainsu 阅读(238) 评论(0) 推荐(0)

java 冒泡排序

摘要：思路将序列当中的左右元素，依次比较，保证右边的元素始终大于左边的元素；（第一轮结束后，序列最后一个元素一定是当前序列的最大值；）对序列当中剩下的n-1个元素再次执行步骤1。对于长度为n的序列，一共需要执行n-1轮比较时间复杂度最佳情况：T(n) = O(n) 最差情况：T(n) = O(n2) 平均情况：T(n) = O(n2)代码import java.util.Arrays;/** ... 阅读全文

posted @ 2019-06-20 18:39 remainsu 阅读(1419) 评论(0) 推荐(0)

java 快速排序

摘要：思路通过一趟排序，将要排序的数据分隔成独立的两部分，其中一部分的所有数据比另外一部分的所有数据都要小，然后再按此方法对这两部分数据分别进行快速排序，整个排序过程可以递归进行，以此使整个数据变成有序序列。时间复杂度最佳情况：T(n) = O(nlogn) 最差情况：T(n) = O(n2) 平均情况：T(n) = O(nlogn)　代码import java.util.Arrays;/** ... 阅读全文

posted @ 2019-06-20 18:39 remainsu 阅读(2267) 评论(0) 推荐(0)

hive 之 Cube, Rollup介绍

摘要： 1. GROUPING SETSGROUPING SETS作为GROUP BY的子句，允许开发人员在GROUP BY语句后面指定多个统维度，可以简单理解为多条group by语句通过union all把查询结果聚合起来结合起来。为方便理解，以testdb.test_1为例：hive> use testdb;hive> desc test_1;user_id string i... 阅读全文

posted @ 2019-06-20 18:37 remainsu 阅读(3777) 评论(0) 推荐(0)

hive 常用的 join 操作实例

摘要： test_a 表idvalue1java2python3c++test_b 表idvalue1java2go3php4c++1. join计算的是笛卡尔积，不推荐使用select * from test_a join test_b on test_a.value = test_b.value;查询结果： java java c++ c++ 2. left outer join & right... 阅读全文

posted @ 2019-06-20 18:36 remainsu 阅读(670) 评论(0) 推荐(0)

CDH 5.15.2 离线安装

摘要：目录目录一、前置准备1. 基础信息1.1 机器1.2 服务版本2. 创建hadoop用户2.1 添加用户组及用户，配置密码2.2 sudo权限3. 修改机器名并配置hosts3.1 修改network文件3.2 修改hosts文件4. 机器之间免密码登录5. 修改系统资源参数5.1 修改 90-nproc.conf5.2 修改 limits.conf6. 安装 jdk6.1 查看centos是否自... 阅读全文

posted @ 2019-06-20 18:32 remainsu 阅读(786) 评论(0) 推荐(0)

Presto 0.22.0 安装记录

摘要： 1. 下载 & 解压# 下载wget https://repo1.maven.org/maven2/com/facebook/presto/presto-server/0.220/presto-server-0.220.tar.gz# 移动到要安装目录mv presto-server-0.220.tar.gz /opt/# 解压tar zxvf presto-server-0.220.tar.gz... 阅读全文

posted @ 2019-06-20 18:31 remainsu 阅读(508) 评论(0) 推荐(1)

青木

博文为个人工作/学习的记录和备份，会尽量坚持下去。欢迎吐槽、随意转载。

公告