摘要: 结果保存到HDFS中 将数据保存到MySQL中 阅读全文
posted @ 2019-09-08 20:17 花未全开*月未圆 阅读(251) 评论(0) 推荐(0) 编辑
摘要: Basic相关API Join相关API TransformAPI WindowAPI batch interval - DStream产生的间隔,由StreamingContext指定 (这里设置为1s),控制RDD分区 window length - 窗口的长度,即一个窗口包含的RDD的个数 ( 阅读全文
posted @ 2019-09-08 20:16 花未全开*月未圆 阅读(461) 评论(0) 推荐(0) 编辑
摘要: QueueStream(主要是做实验用) HdfsFileStream 阅读全文
posted @ 2019-09-08 20:13 花未全开*月未圆 阅读(253) 评论(0) 推荐(0) 编辑
摘要: HDFS日志查看的两种方式:HDFS安装目录中的logs中和HDFS WEB UI上 HDFS安装目录中的logs中看日志 我们分别在master、slave1以及slave2上安装了HDFS,只是每台机器上安装的角色不一样而已。 在master安装的是NameNode和SecondaryNameN 阅读全文
posted @ 2019-09-08 19:51 花未全开*月未圆 阅读(9242) 评论(0) 推荐(0) 编辑
摘要: JVM的启动 绝大部分的大数据技术都是建立在Java的JVM之上的。所以,我们对JVM的启动的了解是非常有必要的,当然,我们也不用非常深入的去了解这个,我们只需要把握两个非常关键的点即可: 当使用java命令启动了一个JVM之后,执行的是我们指定的主类中的main方法中的程序代码,这个方法里面的程序 阅读全文
posted @ 2019-09-08 19:47 花未全开*月未圆 阅读(3070) 评论(0) 推荐(0) 编辑
摘要: 我们在分布式存储原理总结中了解了分布式存储的三大特点: HDFS作为分布式存储的实现,肯定也具有上面3个特点。 HDFS分布式存储: 在HDFS中,数据块默认的大小是128M,当我们往HDFS上上传一个300多M的文件的时候,那么这个文件会被分成3个数据块: 所有的数据块是分布式的存储在所有的Dat 阅读全文
posted @ 2019-09-08 19:43 花未全开*月未圆 阅读(9098) 评论(0) 推荐(1) 编辑
摘要: 在NameNode中的Namespace管理层是负责管理整个HDFS集群文件系统的目录树以及文件与数据块的映射关系。以下就是Namespace的内存结构: 以上是一棵文件目录树,可见Namespace本身其实是一棵巨大的树。在这棵树中INodeFile表示文件,INodeDirectory表示文件目 阅读全文
posted @ 2019-09-08 19:36 花未全开*月未圆 阅读(2527) 评论(0) 推荐(0) 编辑
摘要: DataNode心跳机制的作用讲解了DataNode的三个作用: 以上第1和第2个动作都是在DataNode启动的时候发生的,register的步骤主要功能是使得这个DataNode成为HDFS集群中的成员,DataNode注册成功后,DataNode会将它管理的所有的数据块信息,通过blockRe 阅读全文
posted @ 2019-09-08 19:34 花未全开*月未圆 阅读(2564) 评论(0) 推荐(0) 编辑
摘要: NameNode堆内存估算 在HDFS中,数据和元数据是分开存储的,数据文件被分割成若干个数据块,每一个数据块默认备份3份,然后分布式的存储在所有的DataNode上,元数据会常驻在NameNode的内存中,而且随着数据量的增加,在NameNode中内存的元数据的大小也会随着增加,那么这个时候对Na 阅读全文
posted @ 2019-09-08 19:31 花未全开*月未圆 阅读(3325) 评论(0) 推荐(1) 编辑
摘要: 下图是HDFS的架构: 从上图中可以知道,HDFS包含了NameNode、DataNode以及Client三个角色,当我们的HDFS没有配置HA的时候,那还有一个角色就是SecondaryNameNode,这四个角色都是基于JVM之上的Java进程。既然是Java进程,那我们肯定可以调整这四个角色使 阅读全文
posted @ 2019-09-08 19:29 花未全开*月未圆 阅读(4756) 评论(1) 推荐(1) 编辑