19.大数据 - 随笔分类 - moonandstar08

摘要：scala学习网址为：https://twitter.github.io/scala_school/zh_cn https://www.zhihu.com/question/26707124 阅读全文

posted @ 2017-05-31 22:43 moonandstar08 阅读(220) 评论(0) 推荐(0)

摘要：RDD(Resilient Distributed Dataset)是Spark的最基本抽象，是对分布式内存的抽象使用，实现了以操作本地集合的方式来操作分布式数据集的抽象实现。RDD是Spark最核心的东西，它表示已被分区，不可变的并能够被并行操作的数据集合，不同的数据集格式对应不同的RDD实现。R 阅读全文

posted @ 2017-05-09 23:03 moonandstar08 阅读(350) 评论(0) 推荐(0)

Spark日志清洗

摘要：日志数据清洗，主要采用spark 的定时任务,清洗出有效数据,并保存到hive数据仓库中存储。常用流程如下：参考：https://gaojianhua.gitbooks.io/bigdata-wiki/content/sparkclean.html 阅读全文

posted @ 2017-05-07 20:54 moonandstar08 阅读(1607) 评论(0) 推荐(0)

spark运行模式

摘要：一、Spark运行模式 Spark有以下四种运行模式： local：本地单进程模式，用于本地开发测试Spark代码; standalone：分布式集群模式，Master-Worker架构，Master负责调度，Worker负责具体Task的执行; 与MapReduce1.0框架类似，Spark框架本阅读全文

posted @ 2017-05-05 23:18 moonandstar08 阅读(413) 评论(0) 推荐(0)

scala+hadoop+spark环境搭建

摘要：一、JDK环境构建在指定用户的根目录下编辑.bashrc文件,添加如下部分：运行source .bashrc命令让环境变量生效二、Scala环境构建从http://www.scala-lang.org/download/2.10.4.html上下载Scala正确版本进行安装，本文以scala 阅读全文

posted @ 2017-05-02 22:56 moonandstar08 阅读(3331) 评论(0) 推荐(0)

Spark技术栈

摘要：阅读全文

posted @ 2017-04-20 22:25 moonandstar08 阅读(570) 评论(0) 推荐(0)

Hive编程指南

摘要：阅读全文

posted @ 2017-04-18 21:12 moonandstar08 阅读(166) 评论(0) 推荐(0)

异想天开

莫放春秋佳日过!!!

随笔分类 - 19.大数据

公告