05 2015 档案
摘要:本篇中将会使用开源工具FigFig是什么? 简单的说就是对Docker的封装,从而方便我们构建应用的运行环境 它所做的事情是协调Docker上的各个Container之间的联系,并通过服务发现的方式将它们有机的组合成一个完整的系统Fig使用Docker自带的link来实现服务发现,...
阅读全文
摘要:在本篇中将介绍Dockerfile的编写除了通过修改Image,创建Container,在打包成Image来创建我们需要的Image之外 我们还可以编写Dockerfile文件,通过build来创建我们需要的ImageDockerfile是一个文件名,Docker规定必须是这样子来...
阅读全文
摘要:上一篇中,我们对Docker有了一个基本的了解 下面将讨论Docker中Image,Container的相关实际操作Image管理:镜像的命名和版本管理:普通镜像的命名规范 {namespace}/{repository}:{tag}namespace是docker hub的用户名...
阅读全文
摘要:Container技术:传统的虚拟化技术: 通过对硬件层模拟,从而实现了能够在一套硬件上面运行多个操作系统,因为通过硬件虚拟化,使得操作系统认为在它之下就是硬件层但是实际情况是这样的:虚拟机中的OS对硬件发出的请求都交给了虚拟的硬件,OS认为指令已经下达了,只要等待硬件返回信息即可...
阅读全文
摘要:Spark On Yarn:从0.6.0版本其,就可以在在Yarn上运行Spark 通过Yarn进行统一的资源管理和调度 进而可以实现不止Spark,多种处理框架并存工作的场景部署Spark On Yarn的方式其实和Standalone是差不多的,区别就是需要在spark-env...
阅读全文
摘要:本文测试的Spark版本是1.3.1本文将在Spark集群上搭建一个简单的小型的电影推荐系统,以为之后的完整项目做铺垫和知识积累整个系统的工作流程描述如下: 1.某电影网站拥有可观的电影资源和用户数,通过各个用户对各个电影的评分,汇总得到了海量的用户-电影-评分数据 2.我在一个电...
阅读全文
摘要:本文测试的Spark版本是1.3.1在使用Spark的机器学习算法库之前,需要先了解Mllib中几个基础的概念和专门用于机器学习的数据类型特征向量Vector:Vector的概念是和数学中的向量是一样的,通俗的看其实就是一个装着Double数据的数组 Vector分为两种,分别是密...
阅读全文
摘要:本文测试的Spark版本是1.3.1Spark Streaming编程模型:第一步: 需要一个StreamingContext对象,该对象是Spark Streaming操作的入口 ,而构建一个StreamingContext对象需要两个参数: 1、SparkConf对象:该对象...
阅读全文
摘要:本文测试的Spark版本是1.3.1Text文本文件测试一个简单的person.txt文件内容为:JChubby,13Looky,14LL,15分别是Name和Age在Idea中新建Object,原始代码如下:object TextFile{ def main(args:A...
阅读全文
摘要:Intellij Idea下载地址: 官方下载 选择右下角的Community Edition版本下载安装即可本文中使用的是windows系统 环境为: jdk1.6.0_45 scala2.10.5在网上下载jdk和scala的安装包双击运行安装即可注意:如果之后要将scala文...
阅读全文
摘要:Scala作为Spark的开发语言,想要成为Spark高手,精通Scala是必须要走的一条路 然后一门语言并不是你想精通就能够精通的,更何况是Scala这种面向对象又面向函数的编程语言,个人觉得其学习的门槛会比C#,Java等面向对象语言要高 所以,这篇文章是建立在有一点编程语言知...
阅读全文
摘要:整个Spark框架都是基于RDD算子来进行计算的。What is RDD? Resilient Distributed Dataset(RDD),分布式弹性数据集,是Spark上的一个核心抽象 表示用于并行计算的,不可修改的,对数据集合进行分片的数据结构简单地,可以将RDD看成是S...
阅读全文
摘要:Spark Streaming作为Spark上的四大子框架之一,肩负着实时流计算的重大责任 而相对于另外一个当下十分流行的实时流计算处理框架Storm,Spark Streaming有何优点?又有何不足呢? 首先,对于Storm实时流处理惊人的低延迟性,Spark Streamin...
阅读全文
摘要:一、应用执行机制一个应用的生命周期即,用户提交自定义的作业之后,Spark框架进行处理的一系列过程。在这个过程中,不同的时间段里,应用会被拆分为不同的形态来执行。1、应用执行过程中的基本组件和形态Driver: 运行在客户端或者集群中,执行Application的main方法并创建...
阅读全文
摘要:首先介绍一下Shark的概念 Shark简单的说就是Spark上的Hive,其底层依赖于Hive引擎的 但是在Spark平台上,Shark的解析速度是Hive的几多倍 它就是Hive在Spark上的体现,并且是升级版,一个强大的数据仓库,并且是兼容Hive语法的下面给出一张来自网上...
阅读全文
摘要:spark是什么? spark开源的类Hadoop MapReduce的通用的并行计算框架 spark基于map reduce算法实现的分布式计算 拥有Hadoop MapReduce所具有的优点 但不同于MapReduce的是Job中间输出和结果可以保存在内存中 从而不再需要读写...
阅读全文
摘要:首先交代一下集群的规模和配置 集群有六台机器,均是VM虚拟机,每台256M的内存(原谅楼主物理机硬件不太给力) 主机名分别是cloud1~cloud6 每台机器上都装有jdk6,和hadoop-2.2.0 其中cloud4~cloud6上装有zookeeper cloud1为hdf...
阅读全文