01 2022 档案
发表于 2022-01-14 11:06阅读:363评论:0推荐:0
摘要:Hive中的基本查询 @ 0,数据准备 1)先创建两张表,一张部门表,三个字段,部门id int,部门名 string, 地址编号 int。 dept: 10 ACCOUNTING 1700 20 RESEARCH 1800 30 SALES 1900 40 OPERATIONS 1700 2)再创
阅读全文 »
发表于 2022-01-14 11:00阅读:350评论:0推荐:1
摘要: hadoop作业全流程图解! 作业提交全过程详解 (1)作业提交 第1步:Client调用job.waitForCompletion方法,向整个集群提交MapReduce作业。 第2步:Client向RM申请一个作业id。 第3步:RM给Client返回该job资源的提交路径和作业id
阅读全文 »
发表于 2022-01-14 10:50阅读:266评论:0推荐:0
摘要:Flume框架介绍 @ 1,Flume概述 1.1 Flume定义 Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。Flume基于流式架构,灵活简单。 1.2 Flume 基础架构 Agent Agent 是JVM的一个进程,它以event的形式将数
阅读全文 »
发表于 2022-01-14 10:49阅读:205评论:0推荐:0
摘要:kafka框架介绍 @ 1,kafka概述 1)定义 Kafka是一个分布式的基于发布/订阅模式的消息队列(Message Queue),主要应用于大数据实时处理领域。(传统使用) Kafka是一个开源的分布式事件流平台(event streaming platform),被数千家公司用于高性能数据
阅读全文 »
发表于 2022-01-14 10:48阅读:138评论:0推荐:1
摘要:SparkCore简介 @ 一.RDD概述 1,RDD介绍 RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的抽象数据 RDD代表一个弹性的、不可变的、不可分区、包含的元素可以并行计算的集合 2,RDD五大特性 一组分区(Partitio
阅读全文 »
发表于 2022-01-14 10:31阅读:194评论:0推荐:0
摘要:离线数仓搭建——数据采集工具安装 @目录离线数仓搭建——数据采集工具安装一、zookeeper安装及配置(1)zookeeper-3.5.9安装(2)修改zookeeper配置文件(3)增加zookeeper环境变量(4)zookeeper启动(5)集群zookeeper配置(6)zookeeper
阅读全文 »
发表于 2022-01-14 09:50阅读:281评论:0推荐:0
摘要:大数据集群搭建 @ 注:服务器准备(以三台虚拟机为例) 一、虚拟机环境准备 (1)系统以Centos-7.5-x86-1804为例最小化安装后,使用yum安装基本的工具,安装epel-release yum install -y epel-release 注:该工具相当于是一个软件仓库 (2)安装n
阅读全文 »