随笔分类 - 19.大数据
摘要:scala学习网址为:https://twitter.github.io/scala_school/zh_cn https://www.zhihu.com/question/26707124
阅读全文
摘要:RDD(Resilient Distributed Dataset)是Spark的最基本抽象,是对分布式内存的抽象使用,实现了以操作本地集合的方式来操作分布式数据集的抽象实现。RDD是Spark最核心的东西,它表示已被分区,不可变的并能够被并行操作的数据集合,不同的数据集格式对应不同的RDD实现。R
阅读全文
摘要:日志数据清洗,主要采用spark 的定时任务,清洗出有效数据,并保存到hive数据仓库中存储。常用流程如下: 参考:https://gaojianhua.gitbooks.io/bigdata-wiki/content/sparkclean.html
阅读全文
摘要:一、Spark运行模式 Spark有以下四种运行模式: local:本地单进程模式,用于本地开发测试Spark代码; standalone:分布式集群模式,Master-Worker架构,Master负责调度,Worker负责具体Task的执行; 与MapReduce1.0框架类似,Spark框架本
阅读全文
摘要:一、JDK环境构建 在指定用户的根目录下编辑.bashrc文件,添加如下部分: 运行source .bashrc命令让环境变量生效 二、Scala环境构建 从http://www.scala-lang.org/download/2.10.4.html上下载Scala正确版本进行安装,本文以scala
阅读全文