摘要: 一、Spark中的缓存机制: 避免spark每次都重算RDD以及它的所有依赖,cache()、persist()、 checkpoint()。 1、cache():会被重复使用,但是不能太大的RDD,将其cache()到内存当中,catch()属于 memory only 。cache 是每计算出一 阅读全文
posted @ 2019-12-18 15:32 guoyu1 阅读(2409) 评论(0) 推荐(2) 编辑
摘要: RDD:RDD分区数,若从HDFS创建RDD,RDD的分区就是和文件块一一对应,若是集合并行化形式创建,RDD分区数可以指定,一般默认值是CPU的核数。 task:task数量就是和分区数量对应。 这个全:https://www.cnblogs.com/frankdeng/p/9301672.htm 阅读全文
posted @ 2019-12-18 15:28 guoyu1 阅读(3338) 评论(1) 推荐(0) 编辑
摘要: 主要针对的是“有序数组”中查找某个特定元素。 1、二分查找的思想:主要针对的是有序数组,要充分利用数组有序的特性,要是遍历查找,时间复杂度是O(n),就浪费了数组的有序性。其思想就是,每次查找对比的元素都是数组的中间元素,通过比较中间元素和目标元素的大小,进一步的缩小范围,每次比较的范围都缩小为原来 阅读全文
posted @ 2019-12-18 10:11 guoyu1 阅读(234) 评论(0) 推荐(0) 编辑
摘要: 1、题目描述: 用两个栈来实现一个队列,完成队列的Push和Pop操作。 队列中的元素为int类型。 2、思路: 栈是先进后出,队列是先进先出。stack1只需要把其中的元素全部导入stack2 ,元素的顺序就变成了先进先出的顺序。但有一点必须考虑,那就是元素导入的时机问题,因为元素入队和出队的时机 阅读全文
posted @ 2019-12-18 09:45 guoyu1 阅读(111) 评论(0) 推荐(0) 编辑