摘要:
Spark小课堂Week6 启动日志详解 作为分布式系统,Spark程序是非常难以使用传统方法来进行调试的,所以我们主要的武器是日志,今天会对启动日志进行一下详解。 日志详解 今天主要遍历下Streaming的启动日志。 授权等操作 有中心式架构,元数据服务叫Driver,这里是启动了一个akka服 阅读全文
摘要:
Spark小课堂Week5 Scala初探 Scala是java威力加强版。 对Java的改进 这里会结合StreamingContext.scala这个代码说明下对Java的改进方面。 方便测试方式,增加了可以指定位置的作用域。 成员变量声明,构造方法,get、set方法一体化。 []表示泛型,不 阅读全文
摘要:
Spark小课堂Week4 从控制台看Spark逻辑结构 层级关系: 从监控控制台,我们可以看到如下关系: 一个 Job 包含 n Stage 一个 Stage 包含 n Task Job0解决什么问题? 在控制台,有一个Job0,负责进行数据接收。 其实这个程序并没有分布式的需求,为什么要采用Jo 阅读全文
摘要:
Spark小课堂Week3 FirstSparkApp(代码优化) RDD代码简化 对于昨天练习的代码,我们可以从几个方面来简化: 1. 使用fluent风格写法,可以减少对于中间变量的定义。 2. 使用lambda表示式来替换对象写法,可以使用到类型推断功能,减少对于类型的定义。 优化后代码如下: 阅读全文
摘要:
Spark小课堂Week3 FirstSparkApp 问题:Java有哪些数据结构 大致有如下几种,其中List与Map是最重要的: List Map Set Array Heap Stack Queue Tree 练习:构造一个1 5的List,把他们打印出来 写法1 几点说明: 1. iter 阅读全文
摘要:
Catalyst揭秘 Day5 optimizer解析 Optimizer是目前为止中catalyst中最重要的部分。主要作用是把analyzed logicalPlan变成optimized LogicalPlan。optimizer和analyzer都继承自RuleExecutor。所以表现形式 阅读全文
摘要:
Spark小课堂Week2 Hello Streaming 我们是怎么进行数据处理的? 批量方式处理 目前最常采用的是批量方式处理,指非工作时间运行,定时或者事件触发。这种方式的好处是逻辑简单,不影响联机业务,但是性能不行。 理想方式 对于数据处理的问题,我们的最终理想解,应该是满足业务规则正确的情 阅读全文
摘要:
Spark小课堂Week1 Hello Spark 看到Spark这个词,你的第一印象是什么? 这是一朵"火花",官方的定义是Spark是一个高速的、通用的、分布式计算系统!!! 用途:进行大数据计算,这里要注意,大数据是一个相对概念,并没有绝对的量化指标,一般我们认为在业务特定场景要求下,一台机器 阅读全文