大数据.计算.分析 - 随笔分类(第2页) - 七号楼

摘要：Hadoop核心组件之一：分布式计算的方案MapReduce，是一种编程模型，用于大规模数据集的并行运算，其中Map（映射）和Reduce（归约）。阅读全文

posted @ 2020-11-22 22:25 七号楼阅读(659) 评论(0) 推荐(0) 编辑

摘要：在单点或者少数节点故障的情况下，集群还可以正常的提供服务，HDFS高可用机制可以通过配置Active/Standby两个NameNodes节点实现在集群中对NameNode的热备来消除单节点故障问题，如果单个节点出现故障，可通过该方式将NameNode快速切换到另外一个节点上。阅读全文

posted @ 2020-10-27 22:51 七号楼阅读(962) 评论(0) 推荐(0) 编辑

摘要：DataNode上数据块以文件形式存储在磁盘上，包括两个文件，一个是数据本身，一个是数据块元数据包括长度、校验、时间戳；阅读全文

posted @ 2020-10-20 14:26 七号楼阅读(791) 评论(1) 推荐(1) 编辑

摘要：NameNode运行时元数据需要存放在内存中，同时在磁盘中备份元数据的fsImage，当元数据有更新或者添加元数据时，修改内存中的元数据会把操作记录追加到edits日志文件中，这里不包括查询操作。阅读全文

posted @ 2020-10-12 10:10 七号楼阅读(1268) 评论(0) 推荐(0) 编辑

摘要：HDFS写数据的过程中，NameNode会选择距离待上传数据最近距离的DataNode接收数据，基于机架感知，NameNode就可以画出上图所示的datanode网络拓扑图。D1,R1都是交换机，最底层是datanode。阅读全文

posted @ 2020-09-30 10:34 七号楼阅读(728) 评论(0) 推荐(0) 编辑

摘要：大数据领域一直面对的两大核心模块：数据存储，数据计算，HDFS作为最重要的大数据存储技术，具有高度的容错能力，稳定而且可靠。阅读全文

posted @ 2020-09-29 15:53 七号楼阅读(575) 评论(0) 推荐(0) 编辑

摘要：Hadoop集群模式下分布式环境搭建，三台服务器。阅读全文

posted @ 2020-09-27 11:19 七号楼阅读(484) 评论(0) 推荐(0) 编辑

摘要：格式化NameNode，会产生新的clusterID,导致NameNode和DataNode的集群id不一致，集群找不到已往数据。所以，格式NameNode时，一定要停止相关进程，删除data数据和log日志，然后再格式化NameNode。阅读全文

posted @ 2020-09-16 17:02 七号楼阅读(276) 评论(0) 推荐(0) 编辑

摘要：大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。阅读全文

posted @ 2020-09-15 08:56 七号楼阅读(1646) 评论(1) 推荐(2) 编辑

摘要：Scala对Java相关的类，接口进行了包装，所以依赖Jvm环境。阅读全文

posted @ 2019-07-07 21:22 七号楼阅读(600) 评论(0) 推荐(0) 编辑

七号楼