01 2022 档案

发表于 2022-01-14 11:06阅读：363评论：0推荐：0

摘要：Hive中的基本查询 @ 0，数据准备 1）先创建两张表，一张部门表，三个字段，部门id int，部门名 string，地址编号 int。 dept： 10 ACCOUNTING 1700 20 RESEARCH 1800 30 SALES 1900 40 OPERATIONS 1700 2）再创阅读全文 »

posted @ 2022-01-14 11:06 小笼包想飞阅读(363) 评论(0) 推荐(0) 编辑

hadoop作业流程

发表于 2022-01-14 11:00阅读：350评论：0推荐：1

摘要： hadoop作业全流程图解! 作业提交全过程详解（1）作业提交第1步：Client调用job.waitForCompletion方法，向整个集群提交MapReduce作业。第2步：Client向RM申请一个作业id。第3步：RM给Client返回该job资源的提交路径和作业id 阅读全文 »

posted @ 2022-01-14 11:00 小笼包想飞阅读(350) 评论(0) 推荐(1) 编辑

flume框架简介

发表于 2022-01-14 10:50阅读：266评论：0推荐：0

摘要：Flume框架介绍 @ 1，Flume概述 1.1 Flume定义 Flume是Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统。Flume基于流式架构，灵活简单。 1.2 Flume 基础架构 Agent Agent 是JVM的一个进程，它以event的形式将数阅读全文 »

posted @ 2022-01-14 10:50 小笼包想飞阅读(266) 评论(0) 推荐(0) 编辑

kafka框架介绍

发表于 2022-01-14 10:49阅读：205评论：0推荐：0

摘要：kafka框架介绍 @ 1，kafka概述 1）定义 Kafka是一个分布式的基于发布/订阅模式的消息队列（Message Queue），主要应用于大数据实时处理领域。（传统使用） Kafka是一个开源的分布式事件流平台（event streaming platform），被数千家公司用于高性能数据阅读全文 »

posted @ 2022-01-14 10:49 小笼包想飞阅读(205) 评论(0) 推荐(0) 编辑

SparkCore简介

发表于 2022-01-14 10:48阅读：138评论：0推荐：1

摘要：SparkCore简介 @ 一.RDD概述 1，RDD介绍 RDD（Resilient Distributed Dataset）叫做弹性分布式数据集，是Spark中最基本的抽象数据 RDD代表一个弹性的、不可变的、不可分区、包含的元素可以并行计算的集合 2，RDD五大特性一组分区（Partitio 阅读全文 »

posted @ 2022-01-14 10:48 小笼包想飞阅读(138) 评论(0) 推荐(1) 编辑

离线数仓采集通道搭建

发表于 2022-01-14 10:31阅读：194评论：0推荐：0

摘要：离线数仓搭建——数据采集工具安装 @目录离线数仓搭建——数据采集工具安装一、zookeeper安装及配置（1）zookeeper-3.5.9安装（2）修改zookeeper配置文件（3）增加zookeeper环境变量（4）zookeeper启动（5）集群zookeeper配置（6）zookeeper 阅读全文 »

posted @ 2022-01-14 10:31 小笼包想飞阅读(194) 评论(0) 推荐(0) 编辑

大数据虚拟机集群搭建

发表于 2022-01-14 09:50阅读：281评论：0推荐：0

摘要：大数据集群搭建 @ 注：服务器准备（以三台虚拟机为例）一、虚拟机环境准备（1）系统以Centos-7.5-x86-1804为例最小化安装后,使用yum安装基本的工具，安装epel-release yum install -y epel-release 注：该工具相当于是一个软件仓库（2）安装n 阅读全文 »

posted @ 2022-01-14 09:50 小笼包想飞阅读(281) 评论(0) 推荐(0) 编辑