2019 年 12月 18 日随笔档案 - guoyu1

2019年12月18日

摘要：一、Spark中的缓存机制：避免spark每次都重算RDD以及它的所有依赖，cache()、persist()、 checkpoint()。 1、cache()：会被重复使用，但是不能太大的RDD，将其cache（）到内存当中，catch（）属于 memory only 。cache 是每计算出一阅读全文

posted @ 2019-12-18 15:32 guoyu1 阅读(2409) 评论(0) 推荐(2) 编辑

spark常见的transformation、action算子、会产生shuffle的算子

摘要： RDD：RDD分区数，若从HDFS创建RDD，RDD的分区就是和文件块一一对应，若是集合并行化形式创建，RDD分区数可以指定，一般默认值是CPU的核数。 task：task数量就是和分区数量对应。这个全：https://www.cnblogs.com/frankdeng/p/9301672.htm 阅读全文

posted @ 2019-12-18 15:28 guoyu1 阅读(3338) 评论(1) 推荐(0) 编辑

二分查找

摘要：主要针对的是“有序数组”中查找某个特定元素。 1、二分查找的思想：主要针对的是有序数组，要充分利用数组有序的特性，要是遍历查找，时间复杂度是O（n），就浪费了数组的有序性。其思想就是，每次查找对比的元素都是数组的中间元素，通过比较中间元素和目标元素的大小，进一步的缩小范围，每次比较的范围都缩小为原来阅读全文

posted @ 2019-12-18 10:11 guoyu1 阅读(234) 评论(0) 推荐(0) 编辑

9：两个栈实现一个队列

摘要： 1、题目描述：用两个栈来实现一个队列，完成队列的Push和Pop操作。队列中的元素为int类型。 2、思路：栈是先进后出，队列是先进先出。stack1只需要把其中的元素全部导入stack2 ，元素的顺序就变成了先进先出的顺序。但有一点必须考虑，那就是元素导入的时机问题，因为元素入队和出队的时机阅读全文

posted @ 2019-12-18 09:45 guoyu1 阅读(111) 评论(0) 推荐(0) 编辑

打怪up

公告