摘要:
数据库模式 数据库系统采用三级模式结构,这是数据库管理系统内部的系统结构。 数据库系统设计员可在视图层、逻辑层和物理层对数据抽象,通过外模式、模式和内模式来描述不同层次上的数据特性。 1.模式 模式也称概念模式,是数据库中全部数据的逻辑结构和特征的描述,它是由若干个概念记录类型组成,只涉及行的描述, 阅读全文
摘要:
Hive 数据仓库 Hive的本质其实就相当于HDFS中已经存储的文件在MySql中做了一个双射关系,以方便使用HQL去管理查询。 用于数据分析、清洗 Hive适用于离线的数据分析和清洗,延迟较高。 基于HDFS、MapReduce Hive存储的数据依旧在DataNode上,编写的HQL语句终将是 阅读全文
摘要:
使用HBase自带的命令参数查看HFile: ${HBASE_HOME}/bin/hbase org.apache.hadoop.hbase.io.hfile.HFile usage: HFile [-a] [-b] [-e] [-f <arg>] [-k] [-m] [-p] [-r <arg>] 阅读全文
摘要:
order by 全局排序 sort by 区内排序 结合多个分区使用 distribute by 分区排序 默认分区规则 Hash cluster by 当distribute by和sorts by字段相同时,可以使用cluster by方式。 阅读全文
摘要:
阅读全文
摘要:
什么是Hive Hive:由Facebook开源用于解决海量结构化日志的数据统计。 Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。 本质是:将HQL转化成MapReduce程序 1)Hive处理的数据存储在HDFS 2)Hive分析数据底层 阅读全文
摘要:
Hadoop2.x新特性 集群间数据拷贝 采用distcp命令实现两个Hadoop集群之间的递归数据复制 小文件存档 回收站 Hadoop3.x新特性 多NN的HA架构:多个NameNode高可用 纠删码:能够在不到50%的数据冗余情况下提供和3副本相同的容错能力。 阅读全文
摘要:
MapReduce程序效率的瓶颈在于两点: 1.计算机性能 CPU、内存、磁盘健康、网络。 2.I/O操作优化 ①数据倾斜 ②Map和Reduce数设置不合理 ③Map允许时间太长,导致Reduce等待太久 ④小文件过多 ⑤大量的不可切片的超大压缩文件 ⑥Spill次数过多 ⑦Merge次数过多 从 阅读全文
摘要:
平凡的函数依赖: 如果关系上的一个约束对所有关系实例都成立,且与其他约束无关,则称其为平凡的。例如:A1 A2 ... An->B1 B2 ... Bm,其中{B1,B2,...,Bm}⊆{A1,A2,...,An},也就是说,平凡FD的右边是左边的子集。即整体可以决定部分。 A1 A2 ... A 阅读全文
摘要:
循环结构 while语句 先判断条件在进入循环体。 for语句 先判断条件,再进入循环体,再执行增量表达式。 do while语句 先执行循环体,再判断条件。 阅读全文
摘要:
属性集合的闭包 假设{A1,A2,...,An}是属性集合,S是FD的集合。则S集合下的属性集合{A1,A2,...,An}的闭包是满足下面条件的属性集合B,即使得每一个满足S中所有FD的关系,也同样满足A1 A2 ... An->B。也就是说A1 A2 .... An->B能由S中的FD推断出来。 阅读全文
摘要:
上面的流程是整个MapReduce最全工作流程,但是Shuffle过程只是从第7步开始到第16步结束,具体Shuffle过程详解,如下: (1)MapTask收集map()方法输出的kv对,放到内存缓冲区中 (2)从内存缓冲区不断溢出本地磁盘文件,可能会溢出多个文件 (3)多个溢出文件会被合并成大的 阅读全文
摘要:
1)DataNode可以配置成多个目录,每个目录存储的数据不一样。即:数据不是副本 2)具体配置如下 (1)在hdfs-site.xml文件中添加如下内容 <property> <name>dfs.datanode.data.dir</name> <value>file://${hadoop.tmp 阅读全文
摘要:
当需要在原有集群基础上动态添加新的数据节点时,需要进行如下操作: 环境准备 (1)在hadoop主机上再克隆一台hadoop1主机(可以直接安装一个) (2)修改IP地址和主机名称 (3)删除原来HDFS文件系统留存的文件(/opt/module/hadoop-3.1.3/data和logs)(可以 阅读全文
摘要:
(1)一个数据块在DataNode上以文件形式存储在磁盘上,包括两个文件,一个是数据本身,一个是元数据包括数据块的长度,块数据的校验和,以及时间戳。 (2)DataNode启动后向NameNode注册,通过后,周期性(1小时)的向NameNode上报所有的块信息。 (3)心跳是每3秒一次,心跳返回结 阅读全文