摘要:
本文测试的Spark版本是1.3.1在使用Spark的机器学习算法库之前,需要先了解Mllib中几个基础的概念和专门用于机器学习的数据类型特征向量Vector:Vector的概念是和数学中的向量是一样的,通俗的看其实就是一个装着Double数据的数组 Vector分为两种,分别是密... 阅读全文
摘要:
本文测试的Spark版本是1.3.1Spark Streaming编程模型:第一步: 需要一个StreamingContext对象,该对象是Spark Streaming操作的入口 ,而构建一个StreamingContext对象需要两个参数: 1、SparkConf对象:该对象... 阅读全文
摘要:
本文测试的Spark版本是1.3.1Text文本文件测试一个简单的person.txt文件内容为:JChubby,13Looky,14LL,15分别是Name和Age在Idea中新建Object,原始代码如下:object TextFile{ def main(args:A... 阅读全文
摘要:
Intellij Idea下载地址: 官方下载 选择右下角的Community Edition版本下载安装即可本文中使用的是windows系统 环境为: jdk1.6.0_45 scala2.10.5在网上下载jdk和scala的安装包双击运行安装即可注意:如果之后要将scala文... 阅读全文
摘要:
Scala作为Spark的开发语言,想要成为Spark高手,精通Scala是必须要走的一条路 然后一门语言并不是你想精通就能够精通的,更何况是Scala这种面向对象又面向函数的编程语言,个人觉得其学习的门槛会比C#,Java等面向对象语言要高 所以,这篇文章是建立在有一点编程语言知... 阅读全文
摘要:
整个Spark框架都是基于RDD算子来进行计算的。What is RDD? Resilient Distributed Dataset(RDD),分布式弹性数据集,是Spark上的一个核心抽象 表示用于并行计算的,不可修改的,对数据集合进行分片的数据结构简单地,可以将RDD看成是S... 阅读全文
摘要:
Spark Streaming作为Spark上的四大子框架之一,肩负着实时流计算的重大责任 而相对于另外一个当下十分流行的实时流计算处理框架Storm,Spark Streaming有何优点?又有何不足呢? 首先,对于Storm实时流处理惊人的低延迟性,Spark Streamin... 阅读全文
摘要:
一、应用执行机制一个应用的生命周期即,用户提交自定义的作业之后,Spark框架进行处理的一系列过程。在这个过程中,不同的时间段里,应用会被拆分为不同的形态来执行。1、应用执行过程中的基本组件和形态Driver: 运行在客户端或者集群中,执行Application的main方法并创建... 阅读全文
摘要:
首先介绍一下Shark的概念 Shark简单的说就是Spark上的Hive,其底层依赖于Hive引擎的 但是在Spark平台上,Shark的解析速度是Hive的几多倍 它就是Hive在Spark上的体现,并且是升级版,一个强大的数据仓库,并且是兼容Hive语法的下面给出一张来自网上... 阅读全文
摘要:
spark是什么? spark开源的类Hadoop MapReduce的通用的并行计算框架 spark基于map reduce算法实现的分布式计算 拥有Hadoop MapReduce所具有的优点 但不同于MapReduce的是Job中间输出和结果可以保存在内存中 从而不再需要读写... 阅读全文