Spark RDD/Core 编程 API入门系列 - 随笔分类 - 大数据和AI躺过的坑

摘要：不多说，直接上干货！创建Pair RDD scala语言 Java语言阅读全文

posted @ 2017-06-04 18:08 大数据和AI躺过的坑阅读(2502) 评论(0) 推荐(0)

摘要：通过对移动互联网数据的分析，了解移动终端在互联网上的行为以及各个应用在互联网上的发展情况等信息。具体包括对不同的应用使用情况的统计、移动互联网上的日常活跃用户（DAU）和月活跃用户（MAU）的统计，以及不同应用中的上行下行流量统计等分析。为了简化移动互联网数据的分析，我这里是当个入门。假设，移阅读全文

posted @ 2016-12-03 10:50 大数据和AI躺过的坑阅读(768) 评论(0) 推荐(0)

top N彻底解秘

摘要：本博文内容： 1、基础Top N算法实战 2、分组Top N算法实战 3、排序算法RangePartitioner内幕解密 1、基础Top N算法实战 Top N是排序，Take是直接拿出几个元素，没排序。新建从源码，来说话，take返回的是数组，不是RDD。而colletc需要的是RDD。则阅读全文

posted @ 2016-10-09 09:25 大数据和AI躺过的坑阅读(1005) 评论(0) 推荐(0)

spark高级排序彻底解秘

摘要：排序，真的非常重要！ RDD.scala（源码）在其，没有罗列排序，不是说它不重要！本博文的主要内容有: 1、基础排序算法实战 2、二次排序算法实战 3、更高级别排序算法 4、排序算法内幕解密 1、基础排序算法实战启动hdfs集群启动spark集群启动spark-shell 则，可看出，是阅读全文

posted @ 2016-09-29 21:03 大数据和AI躺过的坑阅读(5307) 评论(2) 推荐(0)

Spark RDD/Core 编程 API入门系列之rdd案例（map、filter、flatMap、groupByKey、reduceByKey、join、cogroupy等）（四）

摘要：声明：大数据中，最重要的算子操作是：join !!! 典型的transformation和action 成为大牛，必写的写法 -> http://blog.csdn.net/kimyoungvon/article/details/51417910 另推荐一篇好的博客，https://www.ite 阅读全文

posted @ 2016-09-27 18:18 大数据和AI躺过的坑阅读(1553) 评论(0) 推荐(0)

Spark RDD/Core 编程 API入门系列之rdd实战（rdd基本操作实战及transformation和action流程图）（源码）（三）

摘要：本博文的主要内容是： 1、rdd基本操作实战 2、transformation和action流程图 3、典型的transformation和action RDD有3种操作： 1、 Trandformation 对数据状态的转换，即所谓算子的转换 2、 Action 触发作业，即所谓得结果的 3、 C 阅读全文

posted @ 2016-09-27 16:29 大数据和AI躺过的坑阅读(1027) 评论(0) 推荐(0)

Spark RDD/Core 编程 API入门系列之动手实战和调试Spark文件操作、动手实战操作搜狗日志文件、搜狗日志文件深入实战（二）

摘要：1、动手实战和调试Spark文件操作这里，我以指定executor-memory参数的方式，启动spark-shell。启动hadoop集群 spark@SparkSingleNode:/usr/local/hadoop/hadoop-2.6.0$ jps8457 Jpsspark@SparkS 阅读全文

posted @ 2016-09-26 23:17 大数据和AI躺过的坑阅读(1015) 评论(0) 推荐(0)

Spark RDD/Core 编程 API入门系列之map、filter、textFile、cache、对Job输出结果进行升和降序、union、groupByKey、join、reduce、lookup（一）

摘要：1、以本地模式实战map和filter 2、以集群模式实战textFile和cache 3、对Job输出结果进行升和降序 4、union 5、groupByKey 6、join 7、reduce 8、lookup 1、以本地模式实战map和filter 以local的方式，运行spark-shell 阅读全文

posted @ 2016-09-26 21:53 大数据和AI躺过的坑阅读(1112) 评论(0) 推荐(0)

大数据和人工智能躺过的坑

随笔分类 - Spark RDD/Core 编程 API入门系列

公告