摘要: Kylin简介 Apache Kylin™是一个开源的、分布式的分析型数据仓库,提供Hadoop/Spark 之上的 SQL 查询接口及多维分析(OLAP)能力以支持超大规模数据,最初由 eBay 开发并贡献至开源社区。它能在亚秒内查询巨大的表。 Apache Kylin™ 令使用者仅需三步,即可实 阅读全文
posted @ 2022-04-12 15:46 小笼包想飞 阅读(274) 评论(1) 推荐(0) 编辑
摘要: Kylin官方提供了 Kylin 的 docker 镜像。该镜像中,Kylin 依赖的各个服务均已正确的安装及部署,包括: • JDK 1.8 • Hadoop 2.7.0 • Hive 1.2.1 • Hbase 1.1.2 (with Zookeeper) • Spark 2.3.1 • Kaf 阅读全文
posted @ 2022-04-12 15:15 小笼包想飞 阅读(238) 评论(0) 推荐(0) 编辑
摘要: Filebeat简介和演示 1.1 什么是filebeat? Filebeat是用于转发和集中日志数据的轻量级传送程序。作为服务器上的代理安装,Filebeat监视您指定的日志文件或位置,收集日志事件,并将它们转发到Elasticsearch或Logstash进行索引。 Filebeat的工作方式如 阅读全文
posted @ 2022-03-25 17:08 小笼包想飞 阅读(8130) 评论(0) 推荐(2) 编辑
摘要: Hive中的基本查询 @ 0,数据准备 1)先创建两张表,一张部门表,三个字段,部门id int,部门名 string, 地址编号 int。 dept: 10 ACCOUNTING 1700 20 RESEARCH 1800 30 SALES 1900 40 OPERATIONS 1700 2)再创 阅读全文
posted @ 2022-01-14 11:06 小笼包想飞 阅读(334) 评论(0) 推荐(0) 编辑
摘要: ​ hadoop作业全流程图解​​! ​​ 作业提交全过程详解 (1)作业提交 第1步:Client调用job.waitForCompletion方法,向整个集群提交MapReduce作业。 第2步:Client向RM申请一个作业id。 第3步:RM给Client返回该job资源的提交路径和作业id 阅读全文
posted @ 2022-01-14 11:00 小笼包想飞 阅读(327) 评论(0) 推荐(1) 编辑
摘要: Flume框架介绍 @ 1,Flume概述 1.1 Flume定义 Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。Flume基于流式架构,灵活简单。 1.2 Flume 基础架构 Agent Agent 是JVM的一个进程,它以event的形式将数 阅读全文
posted @ 2022-01-14 10:50 小笼包想飞 阅读(245) 评论(0) 推荐(0) 编辑
摘要: kafka框架介绍 @ 1,kafka概述 1)定义 Kafka是一个分布式的基于发布/订阅模式的消息队列(Message Queue),主要应用于大数据实时处理领域。(传统使用) Kafka是一个开源的分布式事件流平台(event streaming platform),被数千家公司用于高性能数据 阅读全文
posted @ 2022-01-14 10:49 小笼包想飞 阅读(179) 评论(0) 推荐(0) 编辑
摘要: SparkCore简介 @ 一.RDD概述 1,RDD介绍 RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的抽象数据 RDD代表一个弹性的、不可变的、不可分区、包含的元素可以并行计算的集合 2,RDD五大特性 一组分区(Partitio 阅读全文
posted @ 2022-01-14 10:48 小笼包想飞 阅读(130) 评论(0) 推荐(1) 编辑
摘要: 离线数仓搭建——数据采集工具安装 @目录离线数仓搭建——数据采集工具安装一、zookeeper安装及配置(1)zookeeper-3.5.9安装(2)修改zookeeper配置文件(3)增加zookeeper环境变量(4)zookeeper启动(5)集群zookeeper配置(6)zookeeper 阅读全文
posted @ 2022-01-14 10:31 小笼包想飞 阅读(179) 评论(0) 推荐(0) 编辑
摘要: 大数据集群搭建 @ 注:服务器准备(以三台虚拟机为例) 一、虚拟机环境准备 (1)系统以Centos-7.5-x86-1804为例最小化安装后,使用yum安装基本的工具,安装epel-release yum install -y epel-release 注:该工具相当于是一个软件仓库 (2)安装n 阅读全文
posted @ 2022-01-14 09:50 小笼包想飞 阅读(255) 评论(0) 推荐(0) 编辑