摘要: RDD 介绍 RDD,全称Resilient Distributed Datasets(弹性分布式数据集),是Spark最为核心的概念,是Spark对数据的抽象。 RDD是分布式的元素集合,每个RDD只支持读操作,且每个RDD都被分为多个分区存储到集群的不同节点上。除此之外,RDD还允许用户显示的指 阅读全文
posted @ 2019-08-16 22:03 静悟生慧 阅读(1139) 评论(0) 推荐(0) 编辑
摘要: 1.RDD介绍: RDD,弹性分布式数据集,即分布式的元素集合。在spark中,对所有数据的操作不外乎是创建RDD、转化已有的RDD以及调用RDD操作进行求值。在这一切的背后,Spark会自动将RDD中的数据分发到集群中,并将操作并行化。 Spark中的RDD就是一个不可变的分布式对象集合。每个RD 阅读全文
posted @ 2019-08-16 20:21 静悟生慧 阅读(1360) 评论(0) 推荐(0) 编辑
摘要: List to Array List 提供了toArray的接口,所以可以直接调用转为object型数组 上述方法存在强制转换时会抛异常,下面此种方式更推荐:可以指定类型 Array to List 最简单的方法似乎是这样 解决方案: 1、运用ArrayList的构造方法是目前来说最完美的作法,代码 阅读全文
posted @ 2019-08-16 18:29 静悟生慧 阅读(311) 评论(0) 推荐(0) 编辑
摘要: 很多人不是特别明白并发编程和并行编程的区别所在,有很多人很容易搞混淆,觉得二者近似相等,本文将用几个浅显易懂的例子,来说明一下什么是并发和并行。 1、任务与多任务 关于什么是进程,什么是线程,这里不打算多说,关于每一种开发语言的多线程处理技术语法上有所区别,原理很多类似,可以查阅相关的参考书。什么是 阅读全文
posted @ 2019-08-16 18:22 静悟生慧 阅读(490) 评论(0) 推荐(0) 编辑
摘要: 类库选择 Java中并没有内置JSON的解析,因此使用JSON需要借助第三方类库。 下面是几个常用的 JSON 解析类库: Gson: 谷歌开发的 JSON 库,功能十分全面。 FastJson: 阿里巴巴开发的 JSON 库,性能十分优秀。 Jackson: 社区十分活跃且更新速度很快。 以下教程 阅读全文
posted @ 2019-08-16 17:27 静悟生慧 阅读(450) 评论(0) 推荐(0) 编辑
摘要: package com.example.demo; import java.util.ArrayList; import java.util.Arrays; import java.util.HashMap; import java.util.List; import java.util.Map; import org.apache.spark.api.java.JavaRDD; import o 阅读全文
posted @ 2019-08-16 17:00 静悟生慧 阅读(9237) 评论(0) 推荐(0) 编辑
摘要: 任何Spark程序都是SparkContext开始的,SparkContext的初始化需要一个SparkConf对象,SparkConf包含了Spark集群配置的各种参数。 初始化后,就可以使用SparkContext对象所包含的各种方法来创建和操作RDD和共享变量。 Scala: val conf 阅读全文
posted @ 2019-08-16 16:19 静悟生慧 阅读(16552) 评论(0) 推荐(2) 编辑
摘要: 本文链接:https://blog.csdn.net/TsuiXh/article/details/87879004在开发中在使用Map时,如果需要将Map作为临时的数据存储和处理,可以不用每次都去新建一个Map,可以使用clear方法来进行清空Map。 输出如下: 阅读全文
posted @ 2019-08-16 15:41 静悟生慧 阅读(15575) 评论(0) 推荐(1) 编辑
摘要: There is no royal road to learning. 博主:JavaPanda https://www.cnblogs.com/LearnAndGet/p/10009646.html 目录 1.创建json对象 1.1 创建JSONObject对象 1.2 创建JSONArray对 阅读全文
posted @ 2019-08-16 13:35 静悟生慧 阅读(2489) 评论(0) 推荐(0) 编辑