大魔王阿黎

2019年7月6日

摘要： SparkRDD实现自定义排序实现Order接口，原始方法：元组输出部分代码如下：方法一：自定义一个类，实现Ordered自定义的排序代码如下：方法二：模式匹配方式进行排序代码如下：方法三：专门定义一个隐世类来排序建议写成隐式类，应为可以将你需要的隐世装换全写在一个隐式类中，直接导阅读全文

posted @ 2019-07-06 21:20 大魔王阿黎阅读(358) 评论(0) 推荐(0)

大数据学习之 Spark基本编程案例 48

摘要：案例一：计算网页访问量前三名源数据大致预览：编写Scala代码：运行结果：案例二：求出每个学院访问第一位的网址,分组编写Scala代码：运行结果：案例三：加入自定义分区按照学院分区，相同的学院分为一个结果文件编写Scala代码：运行结果：案例四：Spark访问数据库把分组排阅读全文

posted @ 2019-07-06 21:13 大魔王阿黎阅读(648) 评论(0) 推荐(0)

大数据学习之Spark的缓存机制及CheakPoint 47

摘要： 1、RDD的缓存机制 RDD通过persist方法或cache方法可以将前面的计算结果缓存，但是并不是这两个方法被调用时立即缓存，而是触发后面的action时，该RDD将会被缓存在计算节点的内存中，并供后面重用。通过查看源码发现cache最终也是调用了persist方法，默认的存储级别都是仅在内存阅读全文

posted @ 2019-07-06 20:56 大魔王阿黎阅读(421) 评论(1) 推荐(0)

2019年6月20日

大数据学习之Spark RDD高级算子46

摘要： 1）mapPartionWithIndex(func) 设置分区，并且查看每个分区中存放的元素查看每个分区中元素需要传递函数作为参数 val func = (index:Int,iter:Iterator[(Int)]) => {iter.toList.map(x => "partID:" + 阅读全文

posted @ 2019-06-20 17:15 大魔王阿黎阅读(269) 评论(0) 推荐(0)

大数据学习之Spark RDD算子45

摘要： 1：什么是RDD？ RDD(Resilient Distributed DataSet)是分布式数据集。RDD是Spark最基本的数据的抽象。 scala中的集合。RDD相当于一个不可变、可分区、里面的元素可以并行计算的集合。 RDD特点：具有数据流模型的特点自动容错位置感知调度可伸缩性 R 阅读全文

posted @ 2019-06-20 17:09 大魔王阿黎阅读(258) 评论(0) 推荐(0)

2019年6月19日

大数据学习之Spark的学习44

摘要： Spark框架学习一：Spark概述官网：http://spark.apache.org/ Apache Spark™是用于大规模数据处理的统一分析引擎。为大数据处理而设计的快速通用的计算引擎。 Spark加州大学伯克利分校AMP实验室。不同于mapreduce的是一个Spark任务的中间结阅读全文

posted @ 2019-06-19 17:24 大魔王阿黎阅读(247) 评论(0) 推荐(0)

大数据学习之并发编程模型AKKA 43

摘要： Spark使用底层通信框架AKKA 分布式 master Worker hadoop使用的是rpc 1)akka简介写并发程序很难，AKKA解决spark这个问题。 akka构建在JVM平台上，是一种高并发、分布式、并且容错的应用工具包 akka用scala语言编写同时提供了scala和java的阅读全文

posted @ 2019-06-19 15:07 大魔王阿黎阅读(434) 评论(0) 推荐(0)

大数据学习之Scala语言的高级特性42

摘要： 1、什么是泛型类和Java或者C++一样，类和特质可以带类型参数。在Scala中，使用方括号来定义类型参数测试程序： 2、什么是泛型函数函数和方法也可以带类型参数。和泛型类一样，我们需要把类型参数放在方法名之后。注意：这里的ClassTag是必须的，表示运行时的一些信息，比如类型。 3、Up 阅读全文

posted @ 2019-06-19 14:41 大魔王阿黎阅读(152) 评论(0) 推荐(0)

2019年6月16日

大数据学习之Scala面向对象41

摘要： 20：Scala面向对象 Scala的面向对象我们要封装数据，定义模板等操作，所以我们需要面向对象。 1）scala中的单例对象在scala当中，是没有static的，scala给我们提供了单例模式的实现方法。就是使用关键字object。 static在java中修饰属性和方法，目的是直接类名阅读全文

posted @ 2019-06-16 17:42 大魔王阿黎阅读(138) 评论(0) 推荐(0)

大数据学习之Scala中的Map Set Tuple基本操作40

摘要：八：Set 1 无序的，不重复的集合 Set不可变的集合无序 2 HashSet可变的集合 val c = collection.mutable.HashSet(2,3,4) remove 删除元素 -= 删除元素 ++ 集合相加 ++= 相加并赋值九：Map 1：不可变 Map: val m 阅读全文

posted @ 2019-06-16 17:35 大魔王阿黎阅读(185) 评论(0) 推荐(0)

公告