随笔分类 -  Spark

摘要:DataFrame API 1、collect与collectAsList 、 collect返回一个数组,包含DataFrame中的全部Rows collectAsList返回一个Java List,包含DataFrame中包含的全部Rows 2、count 返回DataFrame的rows的个数 阅读全文
posted @ 2017-06-17 18:06 liurio 阅读(1007) 评论(0) 推荐(1) 编辑
摘要:一、程序 二、结果 阅读全文
posted @ 2017-06-15 14:27 liurio 阅读(339) 评论(0) 推荐(0) 编辑
摘要:Spark SQL运行架构 Spark SQL由Core、Catalyst、Hive和Hive-Thriftserver组成 core:负责处理数据的输入/输出,从不同的数据源获取数据(如RDD、Parquet文件和json文件等),然后将查询结果输出成DataFrame Catalyst:负责处理 阅读全文
posted @ 2017-06-15 13:26 liurio 阅读(1046) 评论(0) 推荐(0) 编辑
摘要:SparkSQL的前身是Shark,给熟悉RDBMS但又不理解MapReduce的技术人员提供快速上手的工具,Hive应运而生,它是当时唯一运行在Hadoop上的SQL-on-Hadoop工具。但是MapReduce计算过程中大量的中间磁盘落地过程消耗了大量的I/O,降低的运行效率,为了提高SQL- 阅读全文
posted @ 2016-03-19 16:10 liurio 阅读(1987) 评论(0) 推荐(0) 编辑
摘要:Spark的内核部分主要从以下几个方面介绍: 任务调度系统、I/0模块、通信控制模块、容错模块、shuffle模块 接下来注意几个概念: Application:用户自定义的Spark程序,用户提交后,Spark为App分配资源,将程序转换并执行。 Driver Program:运行Applicat 阅读全文
posted @ 2016-03-17 20:32 liurio 阅读(356) 评论(0) 推荐(0) 编辑
摘要:spark算子大致上可分三大类算子: 1、Value数据类型的Transformation算子,这种变换不触发提交作业,针对处理的数据项是Value型的数据。 2、Key-Value数据类型的Transformation算子,这种变换不触发提交作业,针对处理的数据项是Key-Value型的数据。 3 阅读全文
posted @ 2016-03-16 22:56 liurio 阅读(20777) 评论(0) 推荐(5) 编辑
摘要:一、安装JDK(具体安装省略) 二、安装Scala(具体安装省略) 三、安装IDEA 1、打开后会看到如下,然后点击OK 2、点击Next:Default plugins,进入以下页面: 3、点击Scala的Install安装(确保联网),等待完成后,出现 4、点击Create New Projec 阅读全文
posted @ 2016-03-06 18:43 liurio 阅读(1565) 评论(0) 推荐(0) 编辑
摘要:一、Tachyon系统的简介 Tachyon是一个分布式内存文件系统,可以在集群里以访问内存的速度来访问存在tachyon里的文件。把 Tachyon是架构在最底层的分布式文件存储和上层的各种计算框架之间的一种中间件。主要职责是将那些不需要落地到DFS里的文件,落地到分布式内存文 件系统中,来达到共 阅读全文
posted @ 2016-03-04 11:04 liurio 阅读(350) 评论(0) 推荐(0) 编辑
摘要:一、下载专门开发的Scala的Eclipse 1、下载地址:http://scala-ide.org/download/sdk.html,或链接:http://pan.baidu.com/s/1hrexmx2 密码:x0za 2、打开后新建一个名为WordCount的工程(这个应该都知道吧File- 阅读全文
posted @ 2016-01-27 17:17 liurio 阅读(1043) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示