09 2020 档案

摘要:HDFS 1. master/slave架构, NameNode/DataNode, 使用心跳包通讯 2. 典型拓扑结构,1个NameNode, 1个SecondaryNameNode,若干个DataNode, 3. 一次写入,多次读取 4. 持久化metadata方式: 日志文件包括FsImage 阅读全文
posted @ 2020-09-28 10:13 龘人上天 阅读(120) 评论(0) 推荐(0) 编辑
摘要:批量处理模板方法, 核心处理方法为内部方法 def batchProces(sc: SparkContext, locationFlag: Int, minid: Int, maxid: Int, numPartitions: Int) = { //自定义RDD,此处为demo val dataRD 阅读全文
posted @ 2020-09-17 16:50 龘人上天 阅读(284) 评论(0) 推荐(1) 编辑
摘要:Spark 三种运行模式 一:Spark On Local 此种模式下,我们只需要在安装Spark时不进行hadoop和Yarn的环境配置,只要将Spark包解压即可使用,运行时Spark目录下的bin目录执行bin/spark-shell即可 二:Spark On Local Cluster(Sp 阅读全文
posted @ 2020-09-04 10:03 龘人上天 阅读(624) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示