2019 年 12月随笔档案 - hdc520

Spark的二次排序以及aggregate

摘要：一、二次排序（1）输入与输出（2）需求：数据如file1.txt，要求根据第一列降序，如果第一列相等，则根据第二列升序分析：平时所使用的键值对是不具有比较意义的，也就说他们没法拿来直接比较，可以通过sortByKey，sortBy(pair._2)来进行单列的排序，但是没法进行两列的同时排序。阅读全文

posted @ 2019-12-26 10:01 hdc520 阅读(466) 评论(0) 推荐(0) 编辑

算法Top的几种解法

摘要：一、全局排序任何排序算法均可，但是时间复杂度或者空间复杂度不符合要求。明明只需要TopK，却将全局都排序了，这也是这个方法复杂度非常高的原因。那能不能不全局排序，而只局部排序呢？这就引出了第二个优化方法局部排序。二、局部排序（1）冒泡排序：每冒一个泡，找出最大值，冒k个泡，就得到TopK 伪代阅读全文

posted @ 2019-12-25 21:54 hdc520 阅读(823) 评论(0) 推荐(0) 编辑

RPC协议解析

摘要：RPC（Remote Procedure Call Protocol）远程过程调用协议，它是一种通过网络从远程计算机程序上请求服务，而不需要了解底层网络技术的协议。简言之，RPC使得程序能够像访问本地系统资源一样，去访问远端系统资源。比较关键的一些方面包括：通讯协议、序列化、资源（接口）描述、服务框阅读全文

posted @ 2019-12-24 17:43 hdc520 阅读(4790) 评论(0) 推荐(0) 编辑

java中list和map详解

摘要：一、List和Set以及Map 1、List , Set, Map都是接口，前两个继承至Collection接口（Collection接口下还有个Queue接口，有PriorityQueue类），Map为独立接口，（1）List下有ArrayList，Vector，LinkedList （2）Se 阅读全文

posted @ 2019-12-24 16:19 hdc520 阅读(19394) 评论(1) 推荐(8) 编辑

java中基础知识

摘要：1、面向对象和面向过程的区别？（1）面向过程：面向过程就是分析出解决问题所需要的步骤，然后用函数把这些步骤一步一步实现，使用的时候一个一个依次调用就可以了； 1）优点：性能比面向对象高，因为类调用时需要实例化，开销比较大，比较消耗资源；Linux/Unix等一般采用面向过程开发，性能是最重要的因素阅读全文

posted @ 2019-12-18 16:57 hdc520 阅读(299) 评论(0) 推荐(0) 编辑

hadoop中yarn

摘要：一、yarn的概述 Apache Yarn（Yet Another Resource Negotiator的缩写）是hadoop集群资源管理器系统，Yarn从hadoop 2引入，最初是为了改善MapReduce的实现，但是它具有通用性，同样执行其他分布式计算模式。在MapReduce1中，具有如阅读全文

posted @ 2019-12-17 18:30 hdc520 阅读(269) 评论(0) 推荐(0) 编辑

hdc520

12 2019 档案