随笔分类 -  大数据.计算.分析

Spark家族生态圈,Scala编程语言。
摘要:Hadoop核心组件之一:分布式计算的方案MapReduce,是一种编程模型,用于大规模数据集的并行运算,其中Map(映射)和Reduce(归约)。 阅读全文
posted @ 2020-11-22 22:25 七号楼 阅读(659) 评论(0) 推荐(0) 编辑
摘要:在单点或者少数节点故障的情况下,集群还可以正常的提供服务,HDFS高可用机制可以通过配置Active/Standby两个NameNodes节点实现在集群中对NameNode的热备来消除单节点故障问题,如果单个节点出现故障,可通过该方式将NameNode快速切换到另外一个节点上。 阅读全文
posted @ 2020-10-27 22:51 七号楼 阅读(962) 评论(0) 推荐(0) 编辑
摘要:DataNode上数据块以文件形式存储在磁盘上,包括两个文件,一个是数据本身,一个是数据块元数据包括长度、校验、时间戳; 阅读全文
posted @ 2020-10-20 14:26 七号楼 阅读(791) 评论(1) 推荐(1) 编辑
摘要:NameNode运行时元数据需要存放在内存中,同时在磁盘中备份元数据的fsImage,当元数据有更新或者添加元数据时,修改内存中的元数据会把操作记录追加到edits日志文件中,这里不包括查询操作。 阅读全文
posted @ 2020-10-12 10:10 七号楼 阅读(1268) 评论(0) 推荐(0) 编辑
摘要:HDFS写数据的过程中,NameNode会选择距离待上传数据最近距离的DataNode接收数据,基于机架感知,NameNode就可以画出上图所示的datanode网络拓扑图。D1,R1都是交换机,最底层是datanode。 阅读全文
posted @ 2020-09-30 10:34 七号楼 阅读(728) 评论(0) 推荐(0) 编辑
摘要:大数据领域一直面对的两大核心模块:数据存储,数据计算,HDFS作为最重要的大数据存储技术,具有高度的容错能力,稳定而且可靠。 阅读全文
posted @ 2020-09-29 15:53 七号楼 阅读(575) 评论(0) 推荐(0) 编辑
摘要:Hadoop集群模式下分布式环境搭建,三台服务器。 阅读全文
posted @ 2020-09-27 11:19 七号楼 阅读(484) 评论(0) 推荐(0) 编辑
摘要:格式化NameNode,会产生新的clusterID,导致NameNode和DataNode的集群id不一致,集群找不到已往数据。所以,格式NameNode时,一定要停止相关进程,删除data数据和log日志,然后再格式化NameNode。 阅读全文
posted @ 2020-09-16 17:02 七号楼 阅读(276) 评论(0) 推荐(0) 编辑
摘要:大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。 阅读全文
posted @ 2020-09-15 08:56 七号楼 阅读(1646) 评论(1) 推荐(2) 编辑
摘要:Scala对Java相关的类,接口进行了包装,所以依赖Jvm环境。 阅读全文
posted @ 2019-07-07 21:22 七号楼 阅读(600) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示