摘要: put -r 路径 env 阅读全文
posted @ 2019-07-01 20:26 hhhl 阅读(95) 评论(0) 推荐(0) 编辑
摘要: 从arr[1,n]n个数中,找到最大的K个数。 1.排序 时间复杂度 n*lgn 2.局部排序 冒泡 每冒一次泡,找到一个最大值,直到k个。时间复杂度n*k。 堆 只找到topk,不排序topk。 先用k个元素生成一个小顶堆,这个小顶堆用于存储当前最大的k个元素; 接着,从第k+1个元素开始扫描,和 阅读全文
posted @ 2019-07-01 18:53 hhhl 阅读(611) 评论(0) 推荐(0) 编辑
摘要: 工厂的三种模式:目的都是解耦 简单工厂 工厂是一个类:生产各种各样产品;不同类实现接口;业务全部在fractory中,违反了开闭原则。 使用在业务简单的情况下。 工厂方法(如果工厂的产品全部属于同一个等级结构,则属于工厂方法。) 定义一个创建对象的工厂接口,让子类决定实例化哪一个类,将实际工作交给子 阅读全文
posted @ 2019-07-01 17:04 hhhl 阅读(1903) 评论(0) 推荐(0) 编辑
摘要: 特点 通用 批处理 迭代式计算 交互查询 流处理 组件 spark core:任务调度 内存管理 容错机制 内部定义了RDDs 提供了很多API ,为其他组件提供底层的服务 spark sql:报表统计 streaming :从kafka接收数据做实时统计 mlib:mll 支持横向扩展,机器学习 阅读全文
posted @ 2019-07-01 10:24 hhhl 阅读(162) 评论(0) 推荐(0) 编辑
摘要: 1.并行计算 传统容错方法 同步、检查点设置等。 2.内存计算 memory computing 如何抽象多台机器的内存? 分布式共享内存(DSM) 统一的地址空间。很难容错。 分布式键值存储(RAMCloud) 细粒度访问。可修改数据(mutable)。容错开销大。 两者的容错机制一般采用副本或者 阅读全文
posted @ 2019-07-01 08:52 hhhl 阅读(286) 评论(0) 推荐(0) 编辑