会员
周边
捐助
新闻
博问
闪存
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
sunajing
上一页
1
2
3
4
下一页
Spark1.6.2 java实现读取txt文件插入MySql数据库代码
摘要: Park1.6.2 sparksql+java
阅读全文
posted @ 2016-07-28 14:09 SUNAJING
阅读(639)
评论(0)
推荐(0)
编辑
Spark RDD API详解(一) Map和Reduce
摘要: RDD是什么? RDD是Spark中的抽象数据结构类型,任何数据在Spark中都被表示为RDD。从编程的角度来看, RDD可以简单看成是一个数组。和普通数组的区别是,RDD中的数据是分区存储的,这样不同分区的数据就可以分布在不同的机器上,同时可以被并行处理。因此,spark应用程序所做的无非是把需要
阅读全文
posted @ 2016-05-27 11:03 SUNAJING
阅读(6174)
评论(0)
推荐(0)
编辑
深入理解Spark RDD
摘要: RDD是什么? RDD,全称是Reslilient Distributed Datasets,是一个容错的,并行的数据结构,可以让用户显式地将数据存储到磁盘和内存中,并能控制数据的分区。同时,RDD还提供了一组丰富的操作来操作这些数据。在这些操作中。诸如map,flatMap,filter等转换操作
阅读全文
posted @ 2016-05-26 16:28 SUNAJING
阅读(311)
评论(0)
推荐(0)
编辑
基于Spark1.3.0的Spark sql三个核心部分
摘要: 基于Spark1.3.0的Spark sql三个核心部分: 1.可以架子啊各种结构化数据源(JSON,Hive,and Parquet) 2.可以让你通过SQL,saprk内部程序或者外部攻击,通过标准的数据库连接(JDBC/ODBC)连接spark,比如一个商业智能的工具Tableau 3.当你通
阅读全文
posted @ 2016-05-26 16:16 SUNAJING
阅读(369)
评论(0)
推荐(0)
编辑
Spark运行原理解析
摘要: 前言: Spark Application的运行架构由两部分组成:driver program(SparkContext)和executor。Spark Application一般都是在集群中运行,比如Spark Standalone,YARN,mesos,这些集群给spark Applicatio
阅读全文
posted @ 2016-05-26 08:55 SUNAJING
阅读(1255)
评论(0)
推荐(0)
编辑
Spark on YARN两种运行模式介绍
摘要: 问题导读 1.Spark在YARN中有几种模式? 2.Yarn Cluster模式,Driver程序在YARN中运行,应用的运行结果在什么地方可以查看? 3.由client向ResourceManager提交请求,并上传jar到HDFS上包含哪些步骤? 4.传递给app的参数应该通过什么来指定? 5
阅读全文
posted @ 2016-05-25 17:29 SUNAJING
阅读(13466)
评论(0)
推荐(0)
编辑
HDFS的概念
摘要: 1.数据块 每个磁盘都有默认的数据块大小,这是磁盘进行数据读/写的最小单位。构建于单个磁盘之上的文件系统通过磁盘块来管理该文件系统中的块,该文件系统块的大小可以是磁盘块的整数倍。文件系统快一半为几千字节,而磁盘块一般为512字节。这些信息 文件系统块大小 对于需要读/写文件的文件系统用户来说是透明的
阅读全文
posted @ 2016-05-23 15:41 SUNAJING
阅读(843)
评论(0)
推荐(0)
编辑
Java 实现MapReduce函数
摘要: 明白了MapReduce程序的工作原理之后,下一步就是写代码来实现它。我们需要三样东西:一个map函数、一个reduce函数和一些用来运行作业的代码。map函数由Mapper类来表示,后者声明一个map()虚方法。范例2-3显示了我们的map函数实现。 范例2-3 查找最高气温的Mapper类 这个
阅读全文
posted @ 2016-05-23 11:37 SUNAJING
阅读(3388)
评论(0)
推荐(0)
编辑
MapReduce运行过程以及原理
摘要: 1.map和reduce MapReduce任务过程分为两个处理阶段:map阶段和reduce阶段。每个节点都以键值对作为输入和输出,其类型由程序员来选择。程序员还需要编写两个函数:map函数和reduce函数。 map阶段的输入时NCDC原始数据。我们选择文本格式作为输入格式,将数据集的每一行作为
阅读全文
posted @ 2016-05-23 10:38 SUNAJING
阅读(476)
评论(0)
推荐(0)
编辑
Spark在Yarn上运行Wordcount程序
摘要: 前提条件 1.CDH安装spark服务 2.下载IntelliJ IDEA编写WorkCount程序 3.上传到spark集群执行 一.下载IntellJ IDEA编写Java程序 1.下载IDEA 官网地址:http://www.jetbrains.com/idea/ 下载IntlliJ IDEA
阅读全文
posted @ 2016-05-20 17:54 SUNAJING
阅读(978)
评论(0)
推荐(0)
编辑
上一页
1
2
3
4
下一页
导航
博客园
首页
联系
订阅
管理
公告