摘要: package com.apple.thread; import java.util.concurrent.atomic.AtomicInteger; /** * This is Description * * @author apple * @date 2020/07/23 */ class My 阅读全文
posted @ 2020-07-23 17:59 alen-fly 阅读(108) 评论(0) 推荐(0) 编辑
摘要: DAG : 整个计算链可以抽象为一个DAG(有向无环图) Spark 的 DAG 作用: 记录了RDD之间的依赖关系,即RDD是通过何种变换生成的, 如下图:RDD1是RDD2的父RDD,通过flatMap操作生成 借助RDD之间的依赖关系,可以实现数据的容错, 即子分区(子RDD)数据丢失后,可以 阅读全文
posted @ 2020-07-05 16:19 alen-fly 阅读(305) 评论(0) 推荐(0) 编辑
摘要: RDD概述 RDD:弹性分布式数据集,初学时,可以把RDD看做是一种集合类型(和Array,List类比) RDD的特点: ①有容错性,即数据丢失是可以恢复的 ②有分区机制,可以并行的处理RDD数据 创建RDD的2种方式: ①将一个普通的集合类型(Array或List) ②通过Spark读取外部存储 阅读全文
posted @ 2020-07-05 13:57 alen-fly 阅读(133) 评论(0) 推荐(0) 编辑
摘要: 一、Logger Sink 记录指定级别(比如INFO,DEBUG,ERROR等)的日志,通常用于调试 要求,在 --conf参数指定的目录下有log4j的配置文件 根据设计,logger sink将体内容限制为16字节,从而避免屏幕充斥着过多的内容。如果想要查看调试的完整内容,那么你应该使用其他的 阅读全文
posted @ 2020-06-29 13:49 alen-fly 阅读(216) 评论(0) 推荐(0) 编辑
摘要: 一、Memory Channel 事件将被存储在内存中(指定大小的队列里) 非常适合那些需要高吞吐量且允许数据丢失的场景下 属性说明: 配置项 说明 type memory capacity 默认100 事件存储在信道中的最大数量 the maximum number of events store 阅读全文
posted @ 2020-06-29 11:20 alen-fly 阅读(216) 评论(0) 推荐(0) 编辑
摘要: 一、概述 1.Flume是Apache提供的开源的、分布式的、可靠的日志收集系统 2.能够有效的收集、聚合、传输大量的日志数据 3.flume有2个版本:flume-og(flume09x)和flume-ng(flume1.x),flume-og和flume-ng不兼容 4.flume中的事务是强一 阅读全文
posted @ 2020-06-28 14:38 alen-fly 阅读(221) 评论(0) 推荐(0) 编辑
摘要: ①编辑core-site.xml,添加内容如下: <!--指定hdfs的nameservice,为整个集群起一个别名,在zookeeper上注册的名称--> <property> <name>fs.defaultFS</name> <value>hdfs://ns</value> </propert 阅读全文
posted @ 2020-06-26 15:15 alen-fly 阅读(225) 评论(0) 推荐(0) 编辑
摘要: Hadoop中进行小文件处理 1.坏处: a.存储:每一个小文件在存储的时候都会产生一个元数据,如果存储大量的小文件,会产生大量的元数据,导致NameNode的效率降低, 如果小文件过多,可能会导致 NameNode的内存崩溃 b.计算:每一个小文件都会作为一个切片来处理,每一个切片都要对应一个Ma 阅读全文
posted @ 2020-06-24 14:09 alen-fly 阅读(163) 评论(0) 推荐(0) 编辑
摘要: 一、数据的本地化 1.当JobTracker接收到应用之后,会去访问NameNode获取要处理的文件信息 2.NameNode将文件信息返回给JobTracker,这里的文件信息只是文件在DataNode上的存储路径和大小等基本属性,没有具体的文件数据内容 3.JobTracker收到文件信息之后会 阅读全文
posted @ 2020-06-24 13:36 alen-fly 阅读(395) 评论(0) 推荐(0) 编辑
摘要: 一、概述 1.是Hadoop中的一套分布式的计算框架 2.将整个计算过程拆分为2个阶段:Map阶段、Reduce阶段 3.Map阶段一般负责数据的整理,Reduce阶段负责数据的汇总 4.如果输入路径是一个文件,则MapReduce只处理这个文件;如果输入的是一个目录,则处理这个目录下的所有文件 - 阅读全文
posted @ 2020-06-23 14:09 alen-fly 阅读(132) 评论(0) 推荐(0) 编辑