打赏
上一页 1 2 3 4 5 6 7 8 ··· 11 下一页
摘要: 什么是Hive Hive:由Facebook开源用于解决海量结构化日志的数据统计。 Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。 本质是:将HQL转化成MapReduce程序 1)Hive处理的数据存储在HDFS 2)Hive分析数据底层 阅读全文
posted @ 2022-02-25 10:18 不像话 阅读(53) 评论(0) 推荐(0) 编辑
摘要: Hadoop2.x新特性 集群间数据拷贝 采用distcp命令实现两个Hadoop集群之间的递归数据复制 小文件存档 回收站 Hadoop3.x新特性 多NN的HA架构:多个NameNode高可用 纠删码:能够在不到50%的数据冗余情况下提供和3副本相同的容错能力。 阅读全文
posted @ 2022-02-16 21:29 不像话 阅读(38) 评论(0) 推荐(0) 编辑
摘要: MapReduce程序效率的瓶颈在于两点: 1.计算机性能 CPU、内存、磁盘健康、网络。 2.I/O操作优化 ①数据倾斜 ②Map和Reduce数设置不合理 ③Map允许时间太长,导致Reduce等待太久 ④小文件过多 ⑤大量的不可切片的超大压缩文件 ⑥Spill次数过多 ⑦Merge次数过多 从 阅读全文
posted @ 2022-02-16 21:16 不像话 阅读(550) 评论(0) 推荐(0) 编辑
摘要: 平凡的函数依赖: 如果关系上的一个约束对所有关系实例都成立,且与其他约束无关,则称其为平凡的。例如:A1 A2 ... An->B1 B2 ... Bm,其中{B1,B2,...,Bm}⊆{A1,A2,...,An},也就是说,平凡FD的右边是左边的子集。即整体可以决定部分。 A1 A2 ... A 阅读全文
posted @ 2022-02-14 10:13 不像话 阅读(1062) 评论(0) 推荐(0) 编辑
摘要: 循环结构 while语句 先判断条件在进入循环体。 for语句 先判断条件,再进入循环体,再执行增量表达式。 do while语句 先执行循环体,再判断条件。 阅读全文
posted @ 2022-02-13 13:55 不像话 阅读(71) 评论(0) 推荐(0) 编辑
摘要: 属性集合的闭包 假设{A1,A2,...,An}是属性集合,S是FD的集合。则S集合下的属性集合{A1,A2,...,An}的闭包是满足下面条件的属性集合B,即使得每一个满足S中所有FD的关系,也同样满足A1 A2 ... An->B。也就是说A1 A2 .... An->B能由S中的FD推断出来。 阅读全文
posted @ 2022-02-13 11:41 不像话 阅读(541) 评论(0) 推荐(0) 编辑
摘要: 上面的流程是整个MapReduce最全工作流程,但是Shuffle过程只是从第7步开始到第16步结束,具体Shuffle过程详解,如下: (1)MapTask收集map()方法输出的kv对,放到内存缓冲区中 (2)从内存缓冲区不断溢出本地磁盘文件,可能会溢出多个文件 (3)多个溢出文件会被合并成大的 阅读全文
posted @ 2022-02-09 21:14 不像话 阅读(461) 评论(0) 推荐(0) 编辑
摘要: 1)DataNode可以配置成多个目录,每个目录存储的数据不一样。即:数据不是副本 2)具体配置如下 (1)在hdfs-site.xml文件中添加如下内容 <property> <name>dfs.datanode.data.dir</name> <value>file://${hadoop.tmp 阅读全文
posted @ 2022-02-08 21:34 不像话 阅读(363) 评论(0) 推荐(0) 编辑
摘要: 当需要在原有集群基础上动态添加新的数据节点时,需要进行如下操作: 环境准备 (1)在hadoop主机上再克隆一台hadoop1主机(可以直接安装一个) (2)修改IP地址和主机名称 (3)删除原来HDFS文件系统留存的文件(/opt/module/hadoop-3.1.3/data和logs)(可以 阅读全文
posted @ 2022-02-08 21:31 不像话 阅读(177) 评论(0) 推荐(0) 编辑
摘要: (1)一个数据块在DataNode上以文件形式存储在磁盘上,包括两个文件,一个是数据本身,一个是元数据包括数据块的长度,块数据的校验和,以及时间戳。 (2)DataNode启动后向NameNode注册,通过后,周期性(1小时)的向NameNode上报所有的块信息。 (3)心跳是每3秒一次,心跳返回结 阅读全文
posted @ 2022-02-08 20:58 不像话 阅读(49) 评论(0) 推荐(0) 编辑
摘要: HDFS处于安全模式的情况: NameNode启动 NameNode启动时,首先将镜像文件(Fsimage)载入内存,并执行编辑日志(Edits)中的各项操作。一旦在内存中成功建立文件系统元数据的镜像,则创建一个空的编辑日志。此时,NameNode开始监听DataNode请求。这个过程期间,Name 阅读全文
posted @ 2022-02-08 20:55 不像话 阅读(75) 评论(0) 推荐(0) 编辑
摘要: NameNode故障后,可以采用如下两种方法恢复数据。 1)将SecondaryNameNode中数据拷贝到NameNode存储数据的目录: (1)kill -9 NameNode进程 (2)删除NameNode存储的数据(/opt/module/hadoop-3.1.3/data/tmp/dfs/ 阅读全文
posted @ 2022-02-08 20:41 不像话 阅读(144) 评论(0) 推荐(0) 编辑
摘要: NN和2NN工作机制推演 首先要知道NameNode中的元数据是存储在哪里的? 倘若存储在NameNode节点的磁盘中,因为经常需要进行随机访问,还有响应客户请求,必然是效率过低。因此,元数据需要存放在内存中。但如果只存在内存中,一旦断电,元数据丢失,整个集群就无法工作了。因此产生在磁盘中备份元数据 阅读全文
posted @ 2022-02-08 20:27 不像话 阅读(155) 评论(0) 推荐(0) 编辑
摘要: HDFS读文件 (1)客户端通过DistributedFileSystem向NameNode请求下载文件,NameNode通过查询元数据,找到文件块所在的DataNode地址。 (2)挑选一台DataNode(就近原则,然后随机)服务器,请求读取数据。 (3)DataNode开始传输数据给客户端(从 阅读全文
posted @ 2022-02-08 19:54 不像话 阅读(75) 评论(0) 推荐(0) 编辑
摘要: 1)时间服务器配置(必须root用户) 查看所有节点ntpd服务状态和开机自启动状态 sudo systemctl status ntpd sudo systemctl is-enabled ntpd 在所有节点关闭ntpd服务和自启动 sudo systemctl stop ntpd sudo s 阅读全文
posted @ 2022-02-07 21:20 不像话 阅读(230) 评论(0) 推荐(0) 编辑
上一页 1 2 3 4 5 6 7 8 ··· 11 下一页