随笔分类 - Spark RDD/Core 编程 API入门系列
摘要:不多说,直接上干货! 创建Pair RDD scala语言 Java语言
阅读全文
摘要:通过对移动互联网数据的分析,了解移动终端在互联网上的行为以及各个应用在互联网上的发展情况等信息。 具体包括对不同的应用使用情况的统计、移动互联网上的日常活跃用户(DAU)和月活跃用户(MAU)的统计,以及不同应用中的上行下行流量统计等分析。 为了简化移动互联网数据的分析,我这里是当个入门。 假设,移
阅读全文
摘要:本博文内容: 1、基础Top N算法实战 2、分组Top N算法实战 3、排序算法RangePartitioner内幕解密 1、基础Top N算法实战 Top N是排序,Take是直接拿出几个元素,没排序。 新建 从源码,来说话,take返回的是数组,不是RDD。而colletc需要的是RDD。 则
阅读全文
摘要:排序,真的非常重要! RDD.scala(源码) 在其,没有罗列排序,不是说它不重要! 本博文的主要内容有: 1、基础排序算法实战 2、二次排序算法实战 3、更高级别排序算法 4、排序算法内幕解密 1、基础排序算法实战 启动hdfs集群 启动spark集群 启动spark-shell 则,可看出,是
阅读全文
摘要:声明: 大数据中,最重要的算子操作是:join !!! 典型的transformation和action 成为大牛,必写的写法 -> http://blog.csdn.net/kimyoungvon/article/details/51417910 另推荐一篇好的博客,https://www.ite
阅读全文
摘要:本博文的主要内容是: 1、rdd基本操作实战 2、transformation和action流程图 3、典型的transformation和action RDD有3种操作: 1、 Trandformation 对数据状态的转换,即所谓算子的转换 2、 Action 触发作业,即所谓得结果的 3、 C
阅读全文
摘要:1、动手实战和调试Spark文件操作 这里,我以指定executor-memory参数的方式,启动spark-shell。 启动hadoop集群 spark@SparkSingleNode:/usr/local/hadoop/hadoop-2.6.0$ jps8457 Jpsspark@SparkS
阅读全文
摘要:1、以本地模式实战map和filter 2、以集群模式实战textFile和cache 3、对Job输出结果进行升和降序 4、union 5、groupByKey 6、join 7、reduce 8、lookup 1、以本地模式实战map和filter 以local的方式,运行spark-shell
阅读全文