12 2019 档案

Spark的二次排序以及aggregate
摘要:一、二次排序 (1)输入与输出 (2)需求:数据如file1.txt,要求根据第一列降序,如果第一列相等,则根据第二列升序 分析:平时所使用的键值对是不具有比较意义的,也就说他们没法拿来直接比较,可以通过sortByKey,sortBy(pair._2)来进行单列的排序,但是没法进行两列的同时排序。 阅读全文

posted @ 2019-12-26 10:01 hdc520 阅读(466) 评论(0) 推荐(0) 编辑

算法Top的几种解法
摘要:一、全局排序 任何排序算法均可,但是时间复杂度或者空间复杂度不符合要求。明明只需要TopK,却将全局都排序了,这也是这个方法复杂度非常高的原因。那能不能不全局排序,而只局部排序呢?这就引出了第二个优化方法局部排序。 二、局部排序 (1)冒泡排序:每冒一个泡,找出最大值,冒k个泡,就得到TopK 伪代 阅读全文

posted @ 2019-12-25 21:54 hdc520 阅读(823) 评论(0) 推荐(0) 编辑

RPC协议解析
摘要:RPC(Remote Procedure Call Protocol)远程过程调用协议,它是一种通过网络从远程计算机程序上请求服务,而不需要了解底层网络技术的协议。简言之,RPC使得程序能够像访问本地系统资源一样,去访问远端系统资源。比较关键的一些方面包括:通讯协议、序列化、资源(接口)描述、服务框 阅读全文

posted @ 2019-12-24 17:43 hdc520 阅读(4790) 评论(0) 推荐(0) 编辑

java中list和map详解
摘要:一、List和Set以及Map 1、List , Set, Map都是接口,前两个继承至Collection接口(Collection接口下还有个Queue接口,有PriorityQueue类),Map为独立接口, (1)List下有ArrayList,Vector,LinkedList (2)Se 阅读全文

posted @ 2019-12-24 16:19 hdc520 阅读(19394) 评论(1) 推荐(8) 编辑

java中基础知识
摘要:1、面向对象和面向过程的区别? (1)面向过程:面向过程就是分析出解决问题所需要的步骤,然后用函数把这些步骤一步一步实现,使用的时候一个一个依次调用就可以了; 1)优点:性能比面向对象高,因为类调用时需要实例化,开销比较大,比较消耗资源;Linux/Unix等一般采用面向过程开发,性能是最重要的因素 阅读全文

posted @ 2019-12-18 16:57 hdc520 阅读(299) 评论(0) 推荐(0) 编辑

hadoop中yarn
摘要:一、yarn的概述 Apache Yarn(Yet Another Resource Negotiator的缩写)是hadoop集群资源管理器系统,Yarn从hadoop 2引入,最初是为了改善MapReduce的实现,但是它具有通用性,同样执行其他分布式计算模式。 在MapReduce1中,具有如 阅读全文

posted @ 2019-12-17 18:30 hdc520 阅读(269) 评论(0) 推荐(0) 编辑

导航