摘要:
Spark小课堂Week4 从控制台看Spark逻辑结构 层级关系: 从监控控制台,我们可以看到如下关系: 一个 Job 包含 n Stage 一个 Stage 包含 n Task Job0解决什么问题? 在控制台,有一个Job0,负责进行数据接收。 其实这个程序并没有分布式的需求,为什么要采用Jo 阅读全文
摘要:
Spark小课堂Week3 FirstSparkApp(代码优化) RDD代码简化 对于昨天练习的代码,我们可以从几个方面来简化: 1. 使用fluent风格写法,可以减少对于中间变量的定义。 2. 使用lambda表示式来替换对象写法,可以使用到类型推断功能,减少对于类型的定义。 优化后代码如下: 阅读全文
摘要:
Spark小课堂Week3 FirstSparkApp 问题:Java有哪些数据结构 大致有如下几种,其中List与Map是最重要的: List Map Set Array Heap Stack Queue Tree 练习:构造一个1 5的List,把他们打印出来 写法1 几点说明: 1. iter 阅读全文
摘要:
Catalyst揭秘 Day5 optimizer解析 Optimizer是目前为止中catalyst中最重要的部分。主要作用是把analyzed logicalPlan变成optimized LogicalPlan。optimizer和analyzer都继承自RuleExecutor。所以表现形式 阅读全文
摘要:
Spark小课堂Week2 Hello Streaming 我们是怎么进行数据处理的? 批量方式处理 目前最常采用的是批量方式处理,指非工作时间运行,定时或者事件触发。这种方式的好处是逻辑简单,不影响联机业务,但是性能不行。 理想方式 对于数据处理的问题,我们的最终理想解,应该是满足业务规则正确的情 阅读全文
摘要:
Spark小课堂Week1 Hello Spark 看到Spark这个词,你的第一印象是什么? 这是一朵"火花",官方的定义是Spark是一个高速的、通用的、分布式计算系统!!! 用途:进行大数据计算,这里要注意,大数据是一个相对概念,并没有绝对的量化指标,一般我们认为在业务特定场景要求下,一台机器 阅读全文