Spark1.6.2 java实现读取txt文件插入MySql数据库代码

摘要: Park1.6.2 sparksql+java 阅读全文
posted @ 2016-07-28 14:09 SUNAJING 阅读(639) 评论(0) 推荐(0) 编辑

Spark RDD API详解(一) Map和Reduce

摘要: RDD是什么? RDD是Spark中的抽象数据结构类型,任何数据在Spark中都被表示为RDD。从编程的角度来看, RDD可以简单看成是一个数组。和普通数组的区别是,RDD中的数据是分区存储的,这样不同分区的数据就可以分布在不同的机器上,同时可以被并行处理。因此,spark应用程序所做的无非是把需要 阅读全文
posted @ 2016-05-27 11:03 SUNAJING 阅读(6174) 评论(0) 推荐(0) 编辑

深入理解Spark RDD

摘要: RDD是什么? RDD,全称是Reslilient Distributed Datasets,是一个容错的,并行的数据结构,可以让用户显式地将数据存储到磁盘和内存中,并能控制数据的分区。同时,RDD还提供了一组丰富的操作来操作这些数据。在这些操作中。诸如map,flatMap,filter等转换操作 阅读全文
posted @ 2016-05-26 16:28 SUNAJING 阅读(311) 评论(0) 推荐(0) 编辑

基于Spark1.3.0的Spark sql三个核心部分

摘要: 基于Spark1.3.0的Spark sql三个核心部分: 1.可以架子啊各种结构化数据源(JSON,Hive,and Parquet) 2.可以让你通过SQL,saprk内部程序或者外部攻击,通过标准的数据库连接(JDBC/ODBC)连接spark,比如一个商业智能的工具Tableau 3.当你通 阅读全文
posted @ 2016-05-26 16:16 SUNAJING 阅读(369) 评论(0) 推荐(0) 编辑

Spark运行原理解析

摘要: 前言: Spark Application的运行架构由两部分组成:driver program(SparkContext)和executor。Spark Application一般都是在集群中运行,比如Spark Standalone,YARN,mesos,这些集群给spark Applicatio 阅读全文
posted @ 2016-05-26 08:55 SUNAJING 阅读(1255) 评论(0) 推荐(0) 编辑

Spark on YARN两种运行模式介绍

摘要: 问题导读 1.Spark在YARN中有几种模式? 2.Yarn Cluster模式,Driver程序在YARN中运行,应用的运行结果在什么地方可以查看? 3.由client向ResourceManager提交请求,并上传jar到HDFS上包含哪些步骤? 4.传递给app的参数应该通过什么来指定? 5 阅读全文
posted @ 2016-05-25 17:29 SUNAJING 阅读(13466) 评论(0) 推荐(0) 编辑

HDFS的概念

摘要: 1.数据块 每个磁盘都有默认的数据块大小,这是磁盘进行数据读/写的最小单位。构建于单个磁盘之上的文件系统通过磁盘块来管理该文件系统中的块,该文件系统块的大小可以是磁盘块的整数倍。文件系统快一半为几千字节,而磁盘块一般为512字节。这些信息 文件系统块大小 对于需要读/写文件的文件系统用户来说是透明的 阅读全文
posted @ 2016-05-23 15:41 SUNAJING 阅读(843) 评论(0) 推荐(0) 编辑

Java 实现MapReduce函数

摘要: 明白了MapReduce程序的工作原理之后,下一步就是写代码来实现它。我们需要三样东西:一个map函数、一个reduce函数和一些用来运行作业的代码。map函数由Mapper类来表示,后者声明一个map()虚方法。范例2-3显示了我们的map函数实现。 范例2-3 查找最高气温的Mapper类 这个 阅读全文
posted @ 2016-05-23 11:37 SUNAJING 阅读(3388) 评论(0) 推荐(0) 编辑

MapReduce运行过程以及原理

摘要: 1.map和reduce MapReduce任务过程分为两个处理阶段:map阶段和reduce阶段。每个节点都以键值对作为输入和输出,其类型由程序员来选择。程序员还需要编写两个函数:map函数和reduce函数。 map阶段的输入时NCDC原始数据。我们选择文本格式作为输入格式,将数据集的每一行作为 阅读全文
posted @ 2016-05-23 10:38 SUNAJING 阅读(476) 评论(0) 推荐(0) 编辑

Spark在Yarn上运行Wordcount程序

摘要: 前提条件 1.CDH安装spark服务 2.下载IntelliJ IDEA编写WorkCount程序 3.上传到spark集群执行 一.下载IntellJ IDEA编写Java程序 1.下载IDEA 官网地址:http://www.jetbrains.com/idea/ 下载IntlliJ IDEA 阅读全文
posted @ 2016-05-20 17:54 SUNAJING 阅读(978) 评论(0) 推荐(0) 编辑