上一页 1 2 3 4 5 6 7 ··· 19 下一页
摘要: 4.1 API简介 4.1.1 Component组件 1)基本接口 (1)IComponent接口 (2)ISpout接口 (3)IRichSpout接口 (4)IStateSpout接口 (5)IRichStateSpout接口 (6)IBolt接口 (7)IRichBolt接口 (8)IBas 阅读全文
posted @ 2020-09-20 10:37 花未全开*月未圆 阅读(233) 评论(0) 推荐(0) 编辑
摘要: 3.1 环境准备 3.1.1 集群规划 hadoop102 hadoop103 hadoop104 zk zk zk storm storm storm 3.1.2 jar包下载 (1)官方网址:http://storm.apache.org/ (2)安装集群步骤: http://storm.apa 阅读全文
posted @ 2020-09-20 10:31 花未全开*月未圆 阅读(238) 评论(0) 推荐(0) 编辑
摘要: 2.1 Storm编程模型 2.1.1 元组(Tuple) 元组(Tuple),是消息传递的基本单元,是一个命名的值列表,元组中的字段可以是任何类型的对象。Storm使用元组作为其数据模型,元组支持所有的基本类型、字符串和字节数组作为字段值,只要实现类型的序列化接口就可以使用该类型的对象。元组本来应 阅读全文
posted @ 2020-09-20 10:26 花未全开*月未圆 阅读(307) 评论(0) 推荐(0) 编辑
摘要: 1.1 离线计算是什么? 离线计算:批量获取数据、批量传输数据、周期性批量计算数据、数据展示 代表技术:Sqoop批量导入数据、HDFS批量存储数据、MapReduce批量计算数据、Hive批量计算数据 1.2 流式计算是什么 流式计算:数据实时产生、数据实时传输、数据实时计算、实时展示 代表技术: 阅读全文
posted @ 2020-09-20 10:24 花未全开*月未圆 阅读(488) 评论(0) 推荐(0) 编辑
摘要: 在CDH6.X平台上,使用hue下的,oozie执行定时计划,弹出undefined。 在执行spark程序,遇到复杂的时间节点,比如,在 12 月内, 每天的早上 6 点到 12 点,每隔 3 个小时 0 分钟执行一次,很难通过平常方式选择时间,于是便引用了cronta,crontabb命令常见于 阅读全文
posted @ 2020-08-26 23:28 花未全开*月未圆 阅读(656) 评论(0) 推荐(0) 编辑
摘要: 首先摆出常用的参数设定 bin/spark-submit \ --class com.xyz.bigdata.calendar.PeriodCalculator \ --master yarn \ --deploy-mode cluster \ --queue default_queue \ --n 阅读全文
posted @ 2020-08-23 20:44 花未全开*月未圆 阅读(2383) 评论(0) 推荐(0) 编辑
摘要: Spark 核心组件解析 BlockManager数据存储与管理机制 BlockManager是整个Spark底层负责数据存储与管理的一个组件,Driver和Executor的所有数据都由对应的BlockManager进行管理。 Driver上有BlockManagerMaster,负责对各个节点上 阅读全文
posted @ 2020-08-23 15:30 花未全开*月未圆 阅读(285) 评论(1) 推荐(0) 编辑
摘要: Spark 内存管理 在执行Spark 的应用程序时,Spark 集群会启动 Driver 和 Executor 两种 JVM 进程,前者为主控进程,负责创建 Spark 上下文,提交 Spark 作业(Job),并将作业转化为计算任务(Task),在各个 Executor 进程间协调任务的调度,后 阅读全文
posted @ 2020-08-23 15:26 花未全开*月未圆 阅读(266) 评论(0) 推荐(0) 编辑
摘要: 5.1 Shuffle的核心要点 5.1.1 ShuffleMapStage与ResultStage 在划分stage时,最后一个stage称为finalStage,它本质上是一个ResultStage对象,前面的所有stage被称为ShuffleMapStage。 ShuffleMapStage的 阅读全文
posted @ 2020-08-23 15:11 花未全开*月未圆 阅读(318) 评论(0) 推荐(0) 编辑
摘要: Spark 任务调度机制 在工厂环境下,Spark集群的部署方式一般为YARN-Cluster模式,之后的内核分析内容中我们默认集群的部署方式为YARN-Cluster模式。 Spark任务提交流程 在上一章中我们讲解了Spark YARN-Cluster模式下的任务提交流程,如下图所示: 下面的时 阅读全文
posted @ 2020-08-23 14:43 花未全开*月未圆 阅读(403) 评论(0) 推荐(0) 编辑
上一页 1 2 3 4 5 6 7 ··· 19 下一页