2020 年 4月随笔档案 - Kotlin

Hadoop 系列（四）自定义数据类

摘要：一：自定义数据类 1.为什么需要自定义数据类上一篇文章里面我们自己写了一个mapreduce 里面的Top N的https://www.cnblogs.com/wuxiaolong4/p/12733518.html，我们可以从代码里面看出来，里面用|作分隔符，这种方法不好，会由于你自己的失误导致读阅读全文

posted @ 2020-04-19 23:31 Kotlin 阅读(273) 评论(0) 推荐(0) 编辑

Hadoop 系列（三）Top N

摘要：一：流程分析 1.Top N简介关系数据库中经常有Top n数据查询的大部分是以下四种需求 1.直接min或者max就可以取得最大或者最小的数据（top 1） 2.升级一点就再加上一个groupby取一个分组内的最大值，最小值（分组内的top1） 3.top 10需求，使用order函数取一个前阅读全文

posted @ 2020-04-19 21:05 Kotlin 阅读(601) 评论(0) 推荐(0) 编辑

Hadoop 系列（二）好友推荐及思考

摘要：一：流程分析 1.好友推荐简介好友推荐功能大家都比较熟悉，在这里就不作介绍了。重点介绍以下算法：通过计算共同好友来确定两人的好友关系如图所示：用户A里面有4个好友，用户B里面也有4个好友，将两个join起来形成共同好友的结果，结果里面有重复的就说明两人认识的可能行极大。此方法需要考虑的情况：阅读全文

posted @ 2020-04-19 14:37 Kotlin 阅读(517) 评论(0) 推荐(0) 编辑

Hadoop 系列（一）文件读写过程及MR过程

摘要：最近把自己学习到的知识捋一捋，发现现在除了spark和hive别的没有能拿的出手的，虽然java也会但是只是限制于能写东西想把知识体系好好补充一下，就开始hadoop系列的文章，好好的把hadoop从头到尾学习一下。一：文件IO流程 1.文件读流程 1.client打开DistributesFil 阅读全文

posted @ 2020-04-12 17:19 Kotlin 阅读(1155) 评论(0) 推荐(0) 编辑

Kotlin

04 2020 档案

公告

最新随笔

随笔分类

随笔档案