上一页 1 2 3 4 5 6 ··· 11 下一页

2016年8月8日

Spark Tungsten揭秘 Day2 Tungsten-sort Based Shuffle

摘要: Spark Tungsten揭秘 Day2 Tungsten-sort Based Shuffle 今天在对钨丝计划思考的基础上,讲解下基于Tungsten的shuffle。 首先解释下概念,Tungsten-sort是对普通sort的一种优化,排序的不是内容本身,而是内容序列化后字节数组的指针(元 阅读全文

posted @ 2016-08-08 21:53 l_time 阅读(286) 评论(0) 推荐(0)

Spark Tungsten揭秘 Day1

摘要: jvm下的性能优化 今天开始谈下Tungsten,首先我们需要了解下其背后是符合了什么样的规律。 jvm对分布式天生支持 整个Spark分布式系统是建立在分布式jvm基础上的,jvm非常伟大的一点在于把不同机器的计算能力联合起来了,jvm也把不同机器的存储能力连接起来了。 jvm是怎么做到这一点的, 阅读全文

posted @ 2016-08-08 21:52 l_time 阅读(391) 评论(0) 推荐(0)

Spark机器学习 Day2 快速理解机器学习

摘要: Spark机器学习 Day2 快速理解机器学习 有两个问题: 机器学习到底是什么 人正常思维的过程是根据历史经验得出一定的规律,然后在当前情况下根据这种规律来预测当前的情况下该怎么做,这种过程就是一个机器学习的过程。 我们可以发现,这个过程里有规律和当前的情况。规律就是模型,当前情况就是当前的数据, 阅读全文

posted @ 2016-08-08 21:51 l_time 阅读(142) 评论(0) 推荐(0)

Catalyst揭秘 Day8 Final

摘要: 外部数据源和缓存系统 今天是Catalyst部分的收官,主要讲一些杂项内容。 外部数据源处理 什么叫外部数据源,是SparkSql自己支持的一些文件格式,以及一些自己自定义格式的文件开发。 让我们从文件的读取api开始,可以看到最终会创建一个DataFrame,当中比较关键的是relation方法。 阅读全文

posted @ 2016-08-08 21:50 l_time 阅读(165) 评论(0) 推荐(0)

Catalyst揭秘 Day7 SQL转为RDD的具体实现

摘要: Catalyst揭秘 Day7 SQL转为RDD的具体实现 从技术角度,越底层和硬件偶尔越高,可动弹的空间越小,而越高层,可动用的智慧是更多。Catalyst就是个高层的智慧。 Catalyst已经逐渐变成了所有Spark框架的解析优化引擎,RDD是通用抽象的数据结果,RDD+Catalyst就构成 阅读全文

posted @ 2016-08-08 21:49 l_time 阅读(226) 评论(0) 推荐(0)

Catalyst揭秘 Day6 Physical plan解析

摘要: Catalyst揭秘 Day6 Physical plan解析 物理计划是Spark和Sparksql相对比而言的,因为SparkSql是在Spark core上的一个抽象,物理化就是变成RDD,是SparkSql和Spark core之间的衔接点。 Physical Plan也是Catalyst变 阅读全文

posted @ 2016-08-08 21:48 l_time 阅读(153) 评论(0) 推荐(0)

Spark机器学习 Day1 机器学习概述

摘要: 机器学习概述 今天主要讨论个问题:Spark机器学习的本质是什么,其内部构成到底是什么。简单来说,机器学习是数据+算法。 数据 在Spark中做机器学习,肯定有数据来源,在Spark的最底层肯定是RDD封装,这个和Spark具体是什么版本没有任何关系,版本发展只不过是提供了更多高层的API而已,例如 阅读全文

posted @ 2016-08-08 21:48 l_time 阅读(171) 评论(0) 推荐(0)

Catalyst揭秘 Day5 optimizer解析

摘要: Catalyst揭秘 Day5 optimizer解析 Optimizer是目前为止中catalyst中最重要的部分。主要作用是把analyzed logicalPlan变成optimized LogicalPlan。optimizer和analyzer都继承自RuleExecutor。所以表现形式 阅读全文

posted @ 2016-08-08 21:46 l_time 阅读(196) 评论(0) 推荐(0)

Catalyst揭秘 Day4 analyzer解析

摘要: Catalyst揭秘 Day4 analyzer解析 今天继续解析catalyst,主要讲一下analyzer,在sql语句的处理流程中,analyzer是在sqlparse的基础上,把unresolved logical plan生成logcal plan。 Analyzer定义 在analyze 阅读全文

posted @ 2016-08-08 21:45 l_time 阅读(188) 评论(0) 推荐(0)

Catalyst揭秘 Day2 Catalyst源码初探

摘要: Catalyst揭秘 Day2 Catalyst源码初探 这节课从源码角度来讲catalyst。 首先有一个观点要澄清,就是技术不是越底层就越是性能和效率更高。因为除了指令执行性能以外,更重要的是架构层次,里面的核心是数据和代码的本地性问题。如果是能在内存中或者多线程运行,很多时候Java会比C语言 阅读全文

posted @ 2016-08-08 21:44 l_time 阅读(162) 评论(1) 推荐(0)

上一页 1 2 3 4 5 6 ··· 11 下一页

导航