摘要: 本文通过MetaWeblog自动发布,原文及更新链接:https://extendswind.top/posts/technical/hadoop_block_placement_policy 大多数的叫法都是副本放置策略,实质上是HDFS对所有数据的位置放置策略,并非只是针对数据的副本。因此Hadoop的源码里有block replicator(configuration)、 BlockPla... 阅读全文
posted @ 2019-01-09 14:24 extendswind 阅读(718) 评论(0) 推荐(0) 编辑
摘要: 本文通过MetaWeblog自动发布,原文及更新链接:https://extendswind.top/posts/technical/hadoop_rack_awareness Hadoop会通过集群的拓扑(节点在交换机的连接形式)优化文件的存储,降低跨交换机的数据通信,使副本跨交换机以保证数据安全。但Hadoop没有默认的集群拓扑识别机制,需要使用额外的java类或脚本两种形式设置。官网上给了... 阅读全文
posted @ 2019-01-09 14:23 extendswind 阅读(1019) 评论(0) 推荐(0) 编辑
摘要: 本文通过MetaWeblog自动发布,原文及更新链接:https://extendswind.top/posts/technical/problem_spark_reading_hdfs_serializable Spark提供了HDFS上一般的文件文件读取接口 sc.textFile(),但在某些情况下HDFS中需要存储自定义格式的文件,需要更加灵活的读取方式。使用KeyValueTextIn... 阅读全文
posted @ 2019-01-09 11:11 extendswind 阅读(2191) 评论(0) 推荐(0) 编辑