09 2020 档案
摘要:HDFS 1. master/slave架构, NameNode/DataNode, 使用心跳包通讯 2. 典型拓扑结构,1个NameNode, 1个SecondaryNameNode,若干个DataNode, 3. 一次写入,多次读取 4. 持久化metadata方式: 日志文件包括FsImage
阅读全文
摘要:批量处理模板方法, 核心处理方法为内部方法 def batchProces(sc: SparkContext, locationFlag: Int, minid: Int, maxid: Int, numPartitions: Int) = { //自定义RDD,此处为demo val dataRD
阅读全文
摘要:Spark 三种运行模式 一:Spark On Local 此种模式下,我们只需要在安装Spark时不进行hadoop和Yarn的环境配置,只要将Spark包解压即可使用,运行时Spark目录下的bin目录执行bin/spark-shell即可 二:Spark On Local Cluster(Sp
阅读全文