04 2020 档案
摘要:一:自定义数据类 1.为什么需要自定义数据类 上一篇文章里面我们自己写了一个mapreduce 里面的Top N的https://www.cnblogs.com/wuxiaolong4/p/12733518.html,我们可以从代码里面看出来,里面用|作分隔符,这种方法不好,会由于你自己的失误导致读
阅读全文
摘要:一:流程分析 1.Top N简介 关系数据库中经常有Top n数据查询的大部分是以下四种需求 1.直接min或者max就可以取得最大或者最小的数据 (top 1) 2.升级一点就再加上一个groupby取一个分组内的最大值,最小值(分组内的top1) 3.top 10需求,使用order函数取一个前
阅读全文
摘要:一:流程分析 1.好友推荐简介 好友推荐功能大家都比较熟悉,在这里就不作介绍了。重点介绍以下算法:通过计算共同好友来确定两人的好友关系 如图所示:用户A里面有4个好友,用户B里面也有4个好友,将两个join起来形成共同好友的结果,结果里面有重复的就说明两人认识的可能行极大。 此方法需要考虑的情况:
阅读全文
摘要:最近把自己学习到的知识捋一捋,发现现在除了spark和hive别的没有能拿的出手的,虽然java也会但是只是限制于能写东西想把知识体系好好补充一下,就开始hadoop系列的文章,好好的把hadoop从头到尾学习一下。 一:文件IO流程 1.文件读流程 1.client打开DistributesFil
阅读全文