Hive-day08 Hive分桶
摘要:Hive分桶 2.1 业务场景 数据分桶的适用场景: 分区提供了一个隔离数据和优化查询的便利方式,不过并非所有的数据都可形成合理的分区,尤其是需要确定合适大小的分区划分方式 不合理的数据分区划分方式可能导致有的分区数据过多,而某些分区没有什么数据的尴尬情况**(数据倾斜)** 分桶是将数据集分解为更
阅读全文
posted @
2022-06-30 16:21
+1000
阅读(104)
推荐(0) 编辑
Hive-day07 Hive分区
摘要:Hive分区 在大数据中,最常见的一种思想就是分治,我们可以把大的文件切割划分成一个个的小的文件,这样每次操作一个个小的文件就会很容易了,同样的道理,在hive当中也是支持这种思想的,就是我们可以把大的数据,按照每天或者每小时切分成一个个小的文件,这样去操作小的文件就会容易很多了。 假如现在我们公司
阅读全文
posted @
2022-06-30 08:53
+1000
阅读(66)
推荐(0) 编辑
Hive-day06 Hive内外部表
摘要:Hive内外部表 hive内部表 默认建表的类型就是内部表 // 内部表 create table students_internal ( id bigint, name string, age int, gender string, clazz string ) ROW FORMAT DELIMI
阅读全文
posted @
2022-06-29 20:01
+1000
阅读(59)
推荐(0) 编辑
Hive-day05 Hive基本操作
摘要:2.3 Hive表操作 Hive的存储格式: Hive没有专门的数据文件格式,常见的有以下几种(加粗为常用格式): TEXTFILE SEQUENCEFILE AVRO RCFILE ORCFILE PARQUET TextFile: TEXTFILE 即正常的文本格式,是H
阅读全文
posted @
2022-06-26 18:56
+1000
阅读(88)
推荐(0) 编辑
Hive-day04 Hive基本概念
摘要:1、Hive基本概念 1.1 Hive简介 Hive本质是将SQL转换为MapReduce的任务进行运算,底层由HDFS来提供数据存储,说白了hive可以理解为一个将SQL转换为MapReduce的任务的工具,甚至更近一步说hive就是一个MapReduce客户端。 为什么使用Hive? 如果直接使
阅读全文
posted @
2022-06-26 18:48
+1000
阅读(116)
推荐(0) 编辑
Hive-day03 Hive安装
摘要:Hive的安装和使用 我们的版本约定: JAVA_HOME=/usr/local/soft/jdk1.8.0_171 HADOOP_HOME=/usr/local/soft/hadoop-2.7.6 HIVE_HOME=/usr/local/soft/hive-1.2.1 一、离线安装MySQL(已
阅读全文
posted @
2022-06-26 18:09
+1000
阅读(34)
推荐(0) 编辑
Hive-day02 概述
摘要:二、Hive概述 2.1 什么是hive?(面试题) 1. hive是基于hadoop的数据仓库建模工具之一(后面还有TEZ,Spark)。 2. hive可以使用类sql方言,对存储在hdfs上的数据进行分析和管理。传入一条交互式sql在海量数据中查询分析结果的工具。 2.2 对于hive的理
阅读全文
posted @
2022-06-26 17:48
+1000
阅读(6)
推荐(0) 编辑
Hive-day01 数据库和数据仓库
摘要:一、数据库、数据仓库概述 如今,随着诸如互联网以及物联网等技术的不断发展,越来越多的数据被生产出来-据统计,每天大约有超过2.5亿亿字节的各种各样数据产生。这些数据需要被存储起来并且能够被方便的分析和利用。 随着大数据技术的不断更新和迭代,数据管理工具得到了飞速的发展,相关概念如雨后春笋一般应运而生
阅读全文
posted @
2022-06-26 16:57
+1000
阅读(57)
推荐(0) 编辑
Hadoop-day07 HDFS的读写流程
摘要:HDFS的读写流程(重点!) 写数据 写数据就是将客户端上的数据上传到HDFS 2.6.1 宏观过程 每一个block块都需要进行机架感知,得到block块以及副本的存储DN的节点,然后DN节点之间组成pipeline,然后客户端将block块拆分成多个packet,每个packet大小为64K,然
阅读全文
posted @
2022-06-26 16:30
+1000
阅读(58)
推荐(0) 编辑
Hadoop-day06 Hadoop进程理解
摘要:hadoop相关进程 HDFS相关(NN,DN,SNN) NameNode(NN) NameNode中存储的信息: 1.文件 --> 元数据 元数据包括:名称,大小,时间,权限等等 2.文件 --> Blocks(每128M生成一个Block块) block0 - 111 block1 - 222
阅读全文
posted @
2022-06-26 15:45
+1000
阅读(82)
推荐(0) 编辑
Hadoop-day03 hadoop基本命令
摘要:一、Hadoop环境变量的配置 首先进入linux环境配置的文件 vim /etc/profile 这样就进入配置文件的界面 然后按下英文字母i就可以进入文件的编辑模式,后面输入环境变量的配置: HADOOP_HOME= (hadoop文件的根目录) PATH=.:$HADOOP/bin(Hadoo
阅读全文
posted @
2022-06-24 20:43
+1000
阅读(113)
推荐(0) 编辑
Hadoop-day05 MapReduce案例
摘要:一、统计一段英文短文中个单词的数量 英文短文如下: Convolutional layers are an important part of distinguishing traditional neural networks and play an important role in extra
阅读全文
posted @
2022-06-24 16:45
+1000
阅读(66)
推荐(0) 编辑
Hadoop-day04 MapReduce
摘要:一、MapReduce架构特点 MapReduce1.x JobTracker 主节点,单点,负责调度所有的作用和监控整个集群的资源负载。 TaskTracker 从节点,自身节点资源管理和JobTracker进行心跳联系,汇报资源和获取task。 Client 以作业为单位,规划作业计算分布,提交
阅读全文
posted @
2022-06-23 20:01
+1000
阅读(36)
推荐(0) 编辑
Hadoop-day02 Hadoop集群搭建
摘要:Hadoop集群搭建(完全分布式版本)(三节点) 一、准备工作 三台虚拟机:master、node1、node2 时间同步 ntpdate ntp.aliyun.com 调整时区 cp /usr/share/zoneinfo/Asia/Shanghai /etc/localtime jdk1.8 j
阅读全文
posted @
2022-06-22 15:10
+1000
阅读(29)
推荐(0) 编辑
Hadoop-day01 Hadoop基本介绍
摘要:Hadoop2.7.6学习 Hadoop(java) HDFS MapReduce Hadoop三大开源发行版本:Apache、Cloudera(CDH)、Hortonworks(HDP)。Apache版本最原始(最基础)的版本,对于入门学习最好。Cloudera在大型互联网企业中用
阅读全文
posted @
2022-06-22 15:00
+1000
阅读(104)
推荐(0) 编辑