摘要:
本安装过程只作为个人笔记用,非标准教程,请酌情COPY。:-D Hive下载 下载之前,需先查看兼容的Hadoop版本,并安装hadoop,参考 http://www.cnblogs.com/yongjian/p/6552647.html 因为自己安装的是hadoop2.7.0,所以就直接下载了Hi 阅读全文
摘要:
本教程为单机版+伪分布式的Hadoop,安装过程写的有些简单,只作为笔记方便自己研究Hadoop用。 环境 Hadoop 有两个主要版本,Hadoop 1.x.y 和 Hadoop 2.x.y 系列,比较老的教材上用的可能是 0.20 这样的版本。Hadoop 2.x 版本在不断更新,本教程均可适用 阅读全文
摘要:
键值对的RDD操作与基本RDD操作一样,只是操作的元素由基本类型改为二元组。 概述 键值对RDD是Spark操作中最常用的RDD,它是很多程序的构成要素,因为他们提供了并行操作各个键或跨界点重新进行数据分组的操作接口。 创建 Spark中有许多中创建键值对RDD的方式,其中包括 文件读取时直接返回键 阅读全文
摘要:
最近在学习Scala语言,虽然还没有完全学通, 但是隐约可以体会到Scala的简洁和强大。 它既能让程序员使用函数式编程, 也提供了全面的面向对象编程。 在刚刚开始读《Scala编程》的时候, 刚读了几页, 我就被Scala语言吸引住了, 所以就一直读下去。 在学习的过程中, 也会有一些感悟, 对于一些原理, 也会尽量搞明白。 所以打算一边学习, 一边写博客, 虽然目前还没有深入, 但是还是有很... 阅读全文
摘要:
一句话说,在Spark中对数据的操作其实就是对RDD的操作,而对RDD的操作不外乎创建、转换、调用求值。 什么是RDD RDD(Resilient Distributed Dataset),弹性分布式数据集。 它定义了如何在集群的每个节点上操作数据的一系列命令,而不是指真实的数据,Spark通过RD 阅读全文
摘要:
与列表一样,元组也是不可变的,但与列表不同的是元组可以包含不同类型的元素。 元组的值是通过将单个的值包含在圆括号中构成的。例如: 以上实例在元组中定义了三个元素,对应的类型分别为[Int, Double, java.lang.String]。 此外我们也可以使用以上方式来定义: 元组的实际类型取决于 阅读全文
摘要:
Scala 中定义匿名函数的语法很简单,箭头左边是参数列表,右边是函数体。 使用匿名函数后,我们的代码变得更简洁了。 下面的表达式就定义了一个接受一个Int类型输入参数的匿名函数: 上述定义的匿名函数,其实是下面这种写法的简写: 以上实例的 inc 现在可作为一个函数,使用方式如下: 同样我们可以在 阅读全文
摘要:
函数是一组一起执行一个任务的语句。 您可以把代码划分到不同的函数中。如何划分代码到不同的函数中是由您来决定的,但在逻辑上,划分通常是根据每个函数执行一个特定的任务来进行的。 Scala 有函数和方法,二者在语义上的区别很小。Scala 方法是类的一部分,而函数是一个对象可以赋值给一个变量。换句话来说 阅读全文
摘要:
Scala 访问修饰符基本和Java的一样,分别有:private,protected,public。 如果没有指定访问修饰符符,默认情况下,Scala对象的访问级别都是 public。 Scala 中的 private 限定符,比 Java 更严格,在嵌套类情况下,外层类甚至不能访问被嵌套类的私有 阅读全文
摘要:
变量是一种使用方便的占位符,用于引用计算机内存地址,变量创建后会占用一定的内存空间。 基于变量的数据类型,操作系统会进行内存分配并且决定什么将被储存在保留内存中。因此,通过给变量分配不同的数据类型,你可以在这些变量中存储整数,小数或者字字母。 变量声明 在学习如何声明变量与常量之前,我们先来了解一些 阅读全文