2020 年 1月 12 日随笔档案 - 阿布_alone

2020年1月12日

摘要： 1、使用工具Studio 3T for MongoDB 选择一个数据库中的Collections集合，然后按住 Ctrl+C 复制快捷键会弹出如下帮助框。点击 Ctrl+V 粘贴快捷键，重命名一下复制的名称即可。 2、使用工具Robo 3T 在Collection中，右键选择复制Collectio 阅读全文

posted @ 2020-01-12 23:50 阿布_alone 阅读(9519) 评论(0) 推荐(1) 编辑

Spark实战--寻找5亿次访问中，访问次数最多的人

摘要：问题描述对于一个大型网站，用户访问量尝尝高达数十亿。对于数十亿是一个什么样的概念，我们这里可以简单的计算一下。对于一个用户，单次访问，我们通常会记录下哪些数据呢？ 1、用户的id 2、用户访问的时间 3、用户逗留的时间 4、用户执行的操作 5、用户的其余数据（比如IP等等）我们单单从用户id来说阅读全文

posted @ 2020-01-12 00:24 阿布_alone 阅读(439) 评论(0) 推荐(0) 编辑

Spark入门（七）--Spark的intersection、subtract、union和distinc

摘要： Spark的intersection intersection顾名思义，他是指交叉的。当两个RDD进行intersection后，将保留两者共有的。因此对于RDD1.intersection(RDD2) 和RDD2.intersection(RDD1) 。应该是一致的。比如对于，List1 = { 阅读全文

posted @ 2020-01-12 00:23 阿布_alone 阅读(1497) 评论(0) 推荐(0) 编辑

Spark入门（六）--Spark的combineByKey、sortBykey

摘要： spark的combineByKey combineByKey的特点 combineByKey的强大之处，在于提供了三个函数操作来操作一个函数。第一个函数，是对元数据处理，从而获得一个键值对。第二个函数，是对键值键值对进行一对一的操作，即一个键值对对应一个输出，且这里是根据key进行整合。第三个函数阅读全文

posted @ 2020-01-12 00:21 阿布_alone 阅读(594) 评论(0) 推荐(0) 编辑

Spark入门（五）--Spark的reduce和reduceByKey

摘要： reduce和reduceByKey的区别 reduce和reduceByKey是spark中使用地非常频繁的，在字数统计中，可以看到reduceByKey的经典使用。那么reduce和reduceBykey的区别在哪呢？reduce处理数据时有着一对一的特性，而reduceByKey则有着多对一的阅读全文

posted @ 2020-01-12 00:16 阿布_alone 阅读(11554) 评论(0) 推荐(1) 编辑

Spark入门（四）--Spark的map、flatMap、mapToPair

摘要： spark的RDD操作在上一节Spark经典的单词统计中，了解了几个RDD操作，包括flatMap，map，reduceByKey，以及后面简化的方案，countByValue。那么这一节将介绍更多常用的RDD操作，并且为每一种RDD我们分解来看其运作的情况。 spark的flatMap flat 阅读全文

posted @ 2020-01-12 00:15 阿布_alone 阅读(7985) 评论(0) 推荐(1) 编辑

Spark入门（三）--Spark经典的单词统计

摘要： spark经典之单词统计准备数据既然要统计单词我们就需要一个包含一定数量的文本，我们这里选择了英文原著《GoneWithTheWind》（《飘》）的文本来做一个数据统计，看看文章中各个单词出现频次如何。为了便于大家下载文本。可以到GitHub上下载文本以及对应的代码。我将文本放在项目的目录下。阅读全文

posted @ 2020-01-12 00:00 阿布_alone 阅读(4288) 评论(0) 推荐(0) 编辑

阿布alone

公告