摘要: 1.安装环境说明 三台机器安装好CentOS-7-x86_64-Minimal-1708.iso 下载地址:https://www.centos.org/download/ 最好在安装时设置好IP和HOSTNAME 三台机器的IP和HOSTNAME下载如下 主 192.168.31.11 SY-00 阅读全文
posted @ 2018-04-03 20:51 梦里南柯 阅读(2214) 评论(0) 推荐(0) 编辑
摘要: Elasticsearch Jar包准备 所有节点导入elasticsearch-hadoop-5.5.1.jar /opt/cloudera/parcels/CDH-5.12.0-1.cdh5.12.0.p0.29/lib/hive/lib/elasticsearch-hadoop-5.5.1.j 阅读全文
posted @ 2018-04-03 20:29 梦里南柯 阅读(8148) 评论(0) 推荐(0) 编辑
摘要: ELK介绍 ELK是三个开源软件的缩写,即elasticsearch、logstack、kibana。 Elasticsearch:开源分布式搜索引擎,提供搜集、分析、存储数据三大功能。它的特点有:分布式,零配置,自动发现,索引自动分片,索引副本机制,restful风格接口,多数据源,自动搜索负载等 阅读全文
posted @ 2018-04-03 20:21 梦里南柯 阅读(483) 评论(0) 推荐(0) 编辑
摘要: 三、集成:数据源 1、Apache Kafka:一种高吞吐量的分布式发布订阅消息系统 (1) (*)消息的类型 (*)常见的消息系统 Kafka、Redis > 只支持Topic JMS(Java Messaging Service标准):Topic、Queue > Weblogic (*)角色:生 阅读全文
posted @ 2018-04-03 16:12 梦里南柯 阅读(248) 评论(0) 推荐(0) 编辑
摘要: Spark Streaming: Spark用于处理流式数据的模块,类似Storm 核心:DStream(离散流),就是一个RDD 一、Spark Streaming基础 1、什么是Spark Streaming? (*)Spark Streaming makes it easy to build 阅读全文
posted @ 2018-04-03 15:08 梦里南柯 阅读(338) 评论(0) 推荐(0) 编辑
摘要: Spark SQL:类似Hive 一、Spark SQL基础 1、什么是Spark SQL? (*) Spark SQL is Apache Spark's module for working with structured data. (*) 处理结构化数据的引擎 (*) 底层:依赖RDD,把S 阅读全文
posted @ 2018-04-03 11:29 梦里南柯 阅读(386) 评论(0) 推荐(0) 编辑