niutao - 博客园

2018年5月19日

摘要： partitionByHash Range-Partition sortPartition 根据指定的字段值进行分区的排序；阅读全文

posted @ 2018-05-19 19:33 niutao 阅读(5765) 评论(0) 推荐(0) 编辑

摘要： flatMap函数练习：如下数据要求：统计相邻字符串出现的次数 import org.apache.flink.api.scala.{DataSet, ExecutionEnvironment} import org.apache.flink.streaming.api.scala._ /** 阅读全文

posted @ 2018-05-19 19:19 niutao 阅读(760) 评论(0) 推荐(0) 编辑

flink--DateSet开发--简单入门

摘要：开发流程例子：将程序打包，提交到yarn 添加maven打包插件： <build> <sourceDirectory>src/main/java</sourceDirectory> <testSourceDirectory>src/test/scala</testSourceDirectory> 阅读全文

posted @ 2018-05-19 19:16 niutao 阅读(570) 评论(0) 推荐(0) 编辑

Flink应用开发-maven导入

摘要： flink和spark类似，也是一种一站式处理的框架；既可以进行批处理（DataSet），也可以进行实时处理（DataStream）使用maven导入相关依赖 <properties> <maven.compiler.source>1.8</maven.compiler.source> <mave 阅读全文

posted @ 2018-05-19 19:12 niutao 阅读(2895) 评论(0) 推荐(0) 编辑

Flink运行在yarn上

摘要：在一个企业中，为了最大化的利用集群资源，一般都会在一个集群中同时运行多种类型的 Workload。因此 Flink 也支持在 Yarn 上面运行； flink on yarn的前提是：hdfs、yarn均启动修改hadoop的配置参数 vim etc/hadoop/yarn-site.xml 是否阅读全文

posted @ 2018-05-19 19:10 niutao 阅读(1350) 评论(0) 推荐(0) 编辑

flink的集群的HA高可用

摘要：对于一个企业级的应用，稳定性是首要要考虑的问题，然后才是性能，因此 HA 机制是必不可少的；和 Hadoop 一代一样，从架构中我们可以很明显的发现 JobManager 有明显的单点问题（SPOF，single point of failure）。 JobManager 肩负着任务调度以及资源分阅读全文

posted @ 2018-05-19 18:58 niutao 阅读(1111) 评论(0) 推荐(0) 编辑

2018年5月18日

flink的Standalone集群安装

摘要： 1：上传安装包到linux系统使用rz命令 2：解压 tar –zxvf flink-1.5.0-bin-hadoop24-scala_2.11.tgz 3：修改配置文件 vim conf/flink-conf.yaml 配置参数解释： 4：启动flink集群方式一：添加一个JobManage 阅读全文

posted @ 2018-05-18 18:53 niutao 阅读(297) 评论(0) 推荐(1) 编辑

2018年5月17日

flink的流处理特性

摘要： flink的流处理特性：支持高吞吐、低延迟、高性能的流处理支持带有事件时间的窗口（Window）操作支持有状态计算的Exactly-once语义支持高度灵活的窗口（Window）操作，支持基于time、count、session，以及data-driven的窗口操作支持具有Backpres 阅读全文

posted @ 2018-05-17 18:48 niutao 阅读(854) 评论(0) 推荐(0) 编辑

2018年3月25日

go-无法下载websocket的问题

摘要：由于限制问题，国内使用 go get 安装 golang 官方包可能会失败，如我自己在安装 collidermain 时，出现了以下报错：不FQ的情况下怎么解决这个问题？其实 golang 在 github 上建立了一个镜像库，如 https://github.com/golang/net 即是阅读全文

posted @ 2018-03-25 12:21 niutao 阅读(920) 评论(0) 推荐(0) 编辑

2018年1月5日

Kudu-压缩

摘要：随着时间的推移，tablet会积累许多DiskRowSets，并且会在行更新时累积很多增量重做(REDO)文件。当插入一个关键字时，为了强制执行主关键字唯一性，Kudu会针对RowSets查询一组布隆过滤器，来找到可能包含该关键字的Rowset。越多的布隆过滤器检查及随后的DiskRowSet搜索，阅读全文

posted @ 2018-01-05 22:28 niutao 阅读(706) 评论(0) 推荐(0) 编辑

kudu的读取数据流程

摘要：当客户端从Kudu的表中读取数据时，必须首先建立需要连接的系列tablet服务器。通过执行tablet发现过程(如上所述)来确定包含要读取的主关键字范围的tablet的位置(读取不必在领导者tablet上发生，除非用户明确选择该选项)。tablet随后使用扫描程序基于行集合(RowSets)和相关阅读全文

posted @ 2018-01-05 22:26 niutao 阅读(1555) 评论(0) 推荐(0) 编辑

kudu的写数据流程

摘要：写入操作是指需进行插入、更新或删除操作的一组行。需要注意的事项是Kudu强制执行主关键字的唯一性，主关键字是可以更改行的唯一标识符。为了强制执行此约束条件，Kudu必须以不同的方式处理插入和更新操作，并且这会影响tablet服务器如何处理写入 Kudu中的每个tablet包含预写式日志(WAL)和多阅读全文

posted @ 2018-01-05 22:25 niutao 阅读(2681) 评论(0) 推荐(0) 编辑

Kudu之Tablet的发现过程

摘要：当创建Kudu客户端时，其会从主服务器上获取tablet位置信息，然后直接与服务于该tablet的服务器进行交谈。为了优化读取和写入路径，客户端将保留该信息的本地缓存，以防止他们在每个请求时需要查询主机的tablet位置信息。随着时间的推移，客户端的缓存可能会变得过时，并且当写入被发送到不再是tab 阅读全文

posted @ 2018-01-05 22:21 niutao 阅读(806) 评论(0) 推荐(0) 编辑

Kudu原理-kudu的底层数据模型

摘要： Kudu自身的架构，部分借鉴了Bigtable/HBase/Spanner的设计思想。论文的作者列表中，有几位是HBase社区的Committer/PBC成员，因此，在论文中也能很深刻的感受到HBase对Kudu设计的一些影响 Kudu的底层数据文件的存储，未采用HDFS这样的较高抽象层次的分布式文阅读全文

posted @ 2018-01-05 22:19 niutao 阅读(1922) 评论(0) 推荐(0) 编辑

2018年1月4日

通过java代码进行impala和kudu的对接

摘要：对于impala而言，开发人员是可以通过JDBC连接impala的，有了JDBC，开发人员可以通过impala来间接操作kudu； maven导包：通过JDBC连接impala操作kudu 使用JDBC连接impala操作kudu，与JDBC连接mysql做更重增删改查基本一样创建实体类 pac 阅读全文

posted @ 2018-01-04 22:12 niutao 阅读(2907) 评论(0) 推荐(0) 编辑

通过impala更改Kudu表属性

摘要：开发人员可以通过更改表的属性来更改 Impala 与给定 Kudu 表相关的元数据。这些属性包括表名， Kudu 主地址列表，以及表是否由 Impala （内部）或外部管理。 Rename an Impala Mapping Table ( 重命名 Impala 映射表 ) 注意：使用 ALTER 阅读全文

posted @ 2018-01-04 22:10 niutao 阅读(6847) 评论(0) 推荐(1) 编辑

使用impala对kudu进行DML操作

摘要：将数据插入 Kudu 表 impala 允许使用标准 SQL 语句将数据插入 Kudu 插入单个值创建表：此示例插入单个行: 查看数据: 此示例使用单个语句插入三行: 批量插入Batch Insert 从 Impala 和 Kudu 的角度来看，通常表现最好的方法通常是使用 Impala 中的阅读全文

posted @ 2018-01-04 22:06 niutao 阅读(1439) 评论(0) 推荐(0) 编辑

使用impala操作kudu之创建kudu表（内部表和外部表）

摘要：依次启动HDFS、mysql、hive、kudu、impala 登录impala的shell控制端： Impala-shell 使用Impala创建新的Kudu表时，可以将该表创建为内部表或外部表。内部表内部表由Impala管理，当您从Impala中删除时，数据和表确实被删除。当您使用Impal 阅读全文

posted @ 2018-01-04 21:59 niutao 阅读(27750) 评论(0) 推荐(2) 编辑

2018年1月3日

Kudu Native RDD

摘要： Spark与Kudu的集成同事提供了kudu RDD 阅读全文

posted @ 2018-01-03 21:54 niutao 阅读(375) 评论(0) 推荐(0) 编辑

sparkSQL将谓词推入kudu引擎

摘要： kudu之所以执行非常快速，可以用来替代HDFS和Hbase等，一个主要原因是，我们可以将普通SQL中的谓词推入kudu引擎，这样kudu查询数据会变的非常快；将谓词评估推入Kudu引擎可以提高性能，因为它可以减少需要流回Spark引擎以进行进一步评估和处理的数据量。通过Spark API当前支阅读全文

posted @ 2018-01-03 21:51 niutao 阅读(1015) 评论(0) 推荐(1) 编辑

2018年1月2日

使用sparkSQL的insert操作Kudu

摘要：可以选择使用Spark SQL直接使用INSERT语句写入Kudu表；与'append'类似，INSERT语句实际上将默认使用UPSERT语义处理；阅读全文

posted @ 2018-01-02 21:49 niutao 阅读(4295) 评论(0) 推荐(0) 编辑

spark操作Kudu之写 - 使用DataFrame API

摘要：在通过DataFrame API编写时，目前只支持一种模式“append”。尚未实现的“覆盖”模式阅读全文

posted @ 2018-01-02 21:47 niutao 阅读(796) 评论(0) 推荐(0) 编辑

spark操作Kudu之读 - 使用DataFrame API

摘要：虽然我们可以通过上面显示的KuduContext执行大量操作，但我们还可以直接从默认数据源本身调用读/写API。要设置读取，我们需要为Kudu表指定选项，命名我们要读取的表以及为表提供服务的Kudu集群的Kudu主服务器列表。阅读全文

posted @ 2018-01-02 21:46 niutao 阅读(805) 评论(0) 推荐(0) 编辑

spark操作kudu之DML操作

摘要： Kudu支持许多DML类型的操作，其中一些操作包含在Spark on Kudu集成包括： INSERT - 将DataFrame的行插入Kudu表。请注意，虽然API完全支持INSERT，但不鼓励在Spark中使用它。使用INSERT是有风险的，因为Spark任务可能需要重新执行，这意味着可能要求阅读全文

posted @ 2018-01-02 21:44 niutao 阅读(2172) 评论(0) 推荐(0) 编辑

DataFrames和Kudu

摘要： Kudu为Kudu表提供了一个自定义的原生数据源。可以和DataFrame API紧密集成；使用DataFrame的好处就是可以从很多的数据源创建dataframe，包括现有的RDD，Hive表或Spark数据语法格式：阅读全文

posted @ 2018-01-02 21:41 niutao 阅读(647) 评论(0) 推荐(0) 编辑

使用spark集成kudu做DDL

摘要： spark对kudu表的创建定义kudu的表需要分成5个步骤： 1：提供表名 2：提供schema 3：提供主键 4：定义重要选项；例如：定义分区的schema 5：调用create Table api 定义表时要注意的一个项目是Kudu表选项值。您会注意到在指定组成范围分区列的列名列表时我们调用阅读全文

posted @ 2018-01-02 21:39 niutao 阅读(1815) 评论(0) 推荐(1) 编辑

使用spark操作kudu

摘要： Spark与KUDU集成支持： DDL操作（创建/删除）本地Kudu RDD Native Kudu数据源，用于DataFrame集成从kudu读取数据从Kudu执行插入/更新/ upsert /删除谓词下推 Kudu和Spark SQL之间的模式映射到目前为止，我们已经听说过几个上下文，阅读全文

posted @ 2018-01-02 21:37 niutao 阅读(4559) 评论(0) 推荐(0) 编辑

kudu的分区方式

摘要：为了提供可扩展性，Kudu 表被划分为称为 tablets 的单元，并分布在许多 tablet servers 上。行总是属于单个 tablet 。将行分配给 tablet 的方法由在表创建期间设置的表的分区决定。 kudu提供了3种分区方式: Range Partitioning ( 范围分区 ) 阅读全文

posted @ 2018-01-02 21:33 niutao 阅读(10862) 评论(0) 推荐(0) 编辑

使用java操作kudu

摘要：使用maven导入kudu 使用java创建Kudu表 public class CreateTable { private static ColumnSchema newColumn(String name, Type type, boolean iskey) { ColumnSchema.Col 阅读全文

posted @ 2018-01-02 21:28 niutao 阅读(2846) 评论(0) 推荐(0) 编辑

2018年1月1日

卸载impala

摘要： 1）：删除impala 2）：卸载impala相关依赖 rm -rf $(find / -name "impala") rpm -qa | grep impala 阅读全文

posted @ 2018-01-01 21:16 niutao 阅读(937) 评论(0) 推荐(0) 编辑

kudu集成impala

摘要： Kudu 与 Apache Impala （孵化）紧密集成，允许开发人员使用 Impala 使用 Impala 的 SQL 语法从 Kudu tablets 插入，查询，更新和删除数据；安装impala 安装规划主节点hadoop01执行以下命令进行安装从节点hadoop02与hadoop03 阅读全文

posted @ 2018-01-01 21:13 niutao 阅读(984) 评论(0) 推荐(0) 编辑

Kudu的卸载（cdh）

摘要：卸载kudu 1）：删除kudu相关包 2）：卸载kudu相关依赖阅读全文

posted @ 2018-01-01 21:03 niutao 阅读(714) 评论(0) 推荐(0) 编辑

Kudu的集群安装（1.6.0-cdh5.14.0）

摘要： kudu的架构体系下图显示了一个具有三个 master 和多个 tablet server 的 Kudu 集群，每个服务器都支持多个 tablet。它说明了如何使用 Raft 共识来允许 master 和 tablet server 的 leader 和 f ollow。此外，tablet ser 阅读全文

posted @ 2018-01-01 21:00 niutao 阅读(1726) 评论(0) 推荐(0) 编辑

2017年5月23日

ELK日志平台搭建

摘要：功能： 3.1：采集服务器日志 Rsyslog是CentOS6.X自带的一款系统日志工具：对于ELK stack来说，我们需要实时的知道当前系统运行的情况，如果当前系统出现了问题，能够及时发现，以免影响线上实例 Rsyslog配置文件介绍：/etc/rsyslog.conf文件：日志级别：本项阅读全文

posted @ 2017-05-23 00:35 niutao 阅读(567) 评论(0) 推荐(0) 编辑

logstash之OutPut插件

摘要： output插件是经过了input，然后过滤结构化数据之后，接下来我们需要借助output传到我们想传到的地方.output相当于一个输出管道。 2.3.1：将采集数据标准输出到控制台配置示例： Codec 来自 Coder/decoder 两个单词的首字母缩写，Logstash 不只是一个in 阅读全文

posted @ 2017-05-23 00:25 niutao 阅读(6013) 评论(0) 推荐(0) 编辑

logstash之Filter插件

摘要： Logstash之所以强悍的主要原因是filter插件；通过过滤器的各种组合可以得到我们想要的结构化数据 1：grok正则表达式 grok**正则表达式是logstash非常重要的一个环节**；可以通过grok非常方便的将数据拆分和索引语法格式： (?<name>pattern) ？<name>表阅读全文

posted @ 2017-05-23 00:23 niutao 阅读(1074) 评论(0) 推荐(0) 编辑

logstash之Input插件

摘要： 1：stdin标准输入和stdout标准输出首先执行命令：程序启动之后输入：hello logstash Logsrtash含有两个非常重要的插件，input与output; 我们上面输入输出hello logstash的时候就是基于这两个插件完成; 一个基础的输入输出插件： bin/logst 阅读全文

posted @ 2017-05-23 00:14 niutao 阅读(1406) 评论(0) 推荐(0) 编辑

logstash搭建

摘要： logstash就是一个具备实时数据传输能力的管道，负责将数据信息从管道的输入端传输到管道的输出端；与此同时这根管道还可以让你根据自己的需求在中间加上滤网，Logstash提供里很多功能强大的滤网以满足你的各种应用场景 1）：解压 2）：安装x-pack 3）：修改配置文件 vim logstash 阅读全文

posted @ 2017-05-23 00:13 niutao 阅读(189) 评论(0) 推荐(0) 编辑

x-pack邮件报警功能

摘要： 1）：修改elasticsearch.yml 2）：重启es 3）：创建一个名字为：errors_email 的watcher，定时去扫描相关信息 4）：测试，向logs索引中输入错误信息邮件报警功能按照每10s检查一遍logs的索引，查看里面的错误信息是否大于0，如果大于0则进行报警；为了验证阅读全文

posted @ 2017-05-23 00:12 niutao 阅读(932) 评论(0) 推荐(0) 编辑

使用kibana构建各种图

摘要： 1.3.1：建立索引索引index 这个参数可以控制字段应该怎样建索引，怎样查询。它有以下三个可用值：字段解释：日志数据集需要映射，通过将 **geo_point**``类型应用于这些字段，将日志中的 latitude（纬度）/longitude（纬度）对标记为地理位置。使用以下命令建立日志阅读全文

posted @ 2017-05-23 00:10 niutao 阅读(2040) 评论(0) 推荐(0) 编辑