摘要: 1. 画图详解Spark工作流程,以及在集群上和各个角色的对应的关系 当 jar 在客户端进行spark-submit的时候spark流程就开始了,先概括的介绍一下流程, 在讲述一下流程中的重要组件 1.application启动之后, 会在本地启动一个Driver进程 用于控制整个流程,(假设我们 阅读全文
posted @ 2020-12-29 10:51 芒果不氓 阅读(60) 评论(0) 推荐(0) 编辑
摘要: 小文件处理专题 Hadoop 小文件优化方法 2.3.1 Hadoop小文件弊端 HDFS上每个文件都要在NameNode中都有对应的元数据,这个元数据的大小约为150byte,这样当小文件比较多的时候,一方面会大量占用NameNode的内存空间,另一方面就是元数据过多的情况查找速度变慢。 小文件过 阅读全文
posted @ 2020-12-29 10:35 芒果不氓 阅读(107) 评论(0) 推荐(0) 编辑
摘要: Producer API: 消息发送流程: Kafka的Producer发送消息采用的是异步发送的方式。在消息发送的过程中,涉及到了两个线程——main线程和Sender线程, 以及一个线程共享变量——RecordAccumulator。main线程将消息发送给RecordAccumulator,S 阅读全文
posted @ 2020-12-29 10:32 芒果不氓 阅读(93) 评论(0) 推荐(0) 编辑
摘要: Kafka概述 定义 Kafka是一个分布式的基于发布/订阅模式的消息队列(Message Queue),主要应用于大数据实时处理领域。 传统消息队列的应用场景 使用消息队列的好处 1:解耦 允许你独立的扩展或修改两边的处理过程,只要确保它们遵守同样的接口约束。 2:可恢复性 系统的一部分组件失效时 阅读全文
posted @ 2020-12-29 10:19 芒果不氓 阅读(146) 评论(0) 推荐(0) 编辑
摘要: 1.什么进程? * 值得就是正在运行的程序,是系统进行资源分配和调用的独立单位 * 每一个进程都有它自己的内存空间和系统资源2.什么线程? * 是进程中的每个顺序控制流,是一条执行路径 * 一个进行如果只有一条执行流程,则为单线程 * 一个进程有多条执行路径,则为多线程3.什么是并行?什么是并发?  阅读全文
posted @ 2020-12-29 10:01 芒果不氓 阅读(99) 评论(0) 推荐(0) 编辑