2016 年 7月 24 日随笔档案 - 哎哟慰

2016年7月24日

摘要： Spark小课堂Week6 启动日志详解作为分布式系统，Spark程序是非常难以使用传统方法来进行调试的，所以我们主要的武器是日志，今天会对启动日志进行一下详解。日志详解今天主要遍历下Streaming的启动日志。授权等操作有中心式架构，元数据服务叫Driver，这里是启动了一个akka服阅读全文

posted @ 2016-07-24 14:52 哎哟慰阅读(1357) 评论(0) 推荐(0) 编辑

Spark小课堂Week5 Scala初探

摘要： Spark小课堂Week5 Scala初探 Scala是java威力加强版。对Java的改进这里会结合StreamingContext.scala这个代码说明下对Java的改进方面。方便测试方式，增加了可以指定位置的作用域。成员变量声明，构造方法，get、set方法一体化。 []表示泛型，不阅读全文

posted @ 2016-07-24 14:49 哎哟慰阅读(314) 评论(0) 推荐(0) 编辑

Spark小课堂Week4 从控制台看Spark逻辑结构

摘要： Spark小课堂Week4 从控制台看Spark逻辑结构层级关系：从监控控制台，我们可以看到如下关系：一个 Job 包含 n Stage 一个 Stage 包含 n Task Job0解决什么问题？在控制台，有一个Job0，负责进行数据接收。其实这个程序并没有分布式的需求，为什么要采用Jo 阅读全文

posted @ 2016-07-24 14:36 哎哟慰阅读(350) 评论(0) 推荐(0) 编辑

Spark小课堂Week3 FirstSparkApp(Dataframe开发)

摘要： Spark小课堂Week3 FirstSparkApp(代码优化) RDD代码简化对于昨天练习的代码，我们可以从几个方面来简化： 1. 使用fluent风格写法，可以减少对于中间变量的定义。 2. 使用lambda表示式来替换对象写法，可以使用到类型推断功能，减少对于类型的定义。优化后代码如下：阅读全文

posted @ 2016-07-24 14:17 哎哟慰阅读(270) 评论(0) 推荐(0) 编辑

Spark小课堂Week3 FirstSparkApp(RDD开发)

摘要： Spark小课堂Week3 FirstSparkApp 问题:Java有哪些数据结构大致有如下几种，其中List与Map是最重要的： List Map Set Array Heap Stack Queue Tree 练习：构造一个1 5的List,把他们打印出来写法1 几点说明： 1. iter 阅读全文

posted @ 2016-07-24 14:14 哎哟慰阅读(294) 评论(0) 推荐(0) 编辑

Catalyst揭秘 Day5 optimizer解析

摘要： Catalyst揭秘 Day5 optimizer解析 Optimizer是目前为止中catalyst中最重要的部分。主要作用是把analyzed logicalPlan变成optimized LogicalPlan。optimizer和analyzer都继承自RuleExecutor。所以表现形式阅读全文

posted @ 2016-07-24 14:13 哎哟慰阅读(399) 评论(0) 推荐(1) 编辑

Spark小课堂Week2 Hello Streaming

摘要： Spark小课堂Week2 Hello Streaming 我们是怎么进行数据处理的？批量方式处理目前最常采用的是批量方式处理，指非工作时间运行，定时或者事件触发。这种方式的好处是逻辑简单，不影响联机业务，但是性能不行。理想方式对于数据处理的问题，我们的最终理想解，应该是满足业务规则正确的情阅读全文

posted @ 2016-07-24 08:28 哎哟慰阅读(241) 评论(0) 推荐(0) 编辑

Spark小课堂Week1 Hello Spark

摘要： Spark小课堂Week1 Hello Spark 看到Spark这个词，你的第一印象是什么？这是一朵"火花"，官方的定义是Spark是一个高速的、通用的、分布式计算系统！！！用途：进行大数据计算，这里要注意，大数据是一个相对概念，并没有绝对的量化指标，一般我们认为在业务特定场景要求下，一台机器阅读全文

posted @ 2016-07-24 07:54 哎哟慰阅读(264) 评论(0) 推荐(0) 编辑

哎哟慰

公告