摘要: 简介 作用: 水塘抽样算法是一种抽样算法,对于一个很大的集合,抽取的样本值能够保证随机. 特点: 其复杂度并不很高 ,并且能够很大程度地节省内存. 问题导入 很多大公司的面试题都考察过这个算法,以谷歌为例,有一道关于水塘抽样的例题 我有一个长度为N的链表,N的值非常大,我不清楚N的确切值.我怎样能写 阅读全文
posted @ 2018-06-01 14:25 Tikko 阅读(6611) 评论(1) 推荐(2) 编辑
摘要: 公司用的阿里云的redis,因为无法外网访问,而且阿里云控制台无法批量删除,很麻烦。 我在一台内网服务器上安装了redis客户端,通过客户端利用脚本对数据批量删除,脚本内容如下: 我把这个脚本放在了${REDIS_HOME}/bin目录下。脚本的名称是delete.sh 使用方式: 阅读全文
posted @ 2018-03-29 12:09 Tikko 阅读(1475) 评论(0) 推荐(0) 编辑
摘要: java9并没有在语言层面做出很多改变,而是致力于一些新特性,如模块化,其核心就是解决历史遗留问题,为以后的jar包森林理清道路。模块化是一个很大的命题,就不讲那么细致了,关于java9的特性也有很多书籍可供参考,如[《Java 9 Revealed: For Early Adoption and 阅读全文
posted @ 2018-03-27 14:30 Tikko 阅读(2560) 评论(0) 推荐(0) 编辑
摘要: Working on a Per Partition Basis(基于分区的操作) 以每个分区为基础处理数据使我们可以避免为每个数据项重做配置工作。如打开数据库连接或者创建随机数生成器这样的操作,我们希望避免为每个元素重做配置工作。Spark有分区版本的 和`foreach`,通过让RDD的每个分区 阅读全文
posted @ 2018-03-18 10:11 Tikko 阅读(1475) 评论(0) 推荐(0) 编辑
摘要: Introduction(介绍) 本章介绍了之前章节没有涵盖的高级Spark编程特性。我们介绍两种类型的共享变量:用来聚合信息的累加器和能有效分配较大值的广播变量。基于对RDD现有的transformation(转换),我们针对构建成本高的任务引入批量操作,如查询数据库。为了扩展我们可使用工具的范围 阅读全文
posted @ 2018-03-16 09:30 Tikko 阅读(1246) 评论(0) 推荐(0) 编辑
摘要: SequenceFiles(序列文件)   SequenceFile是Hadoop的一种由键值对小文件组成的流行的格式。SequenceFIle有同步标记,Spark可以寻找标记点,然后与记录边界重新同步。Spark还可以从多个节点并行高效地读取SequenceFile。Sequ 阅读全文
posted @ 2018-03-14 14:45 Tikko 阅读(2056) 评论(0) 推荐(0) 编辑
摘要:   开发工程师和数据科学家都会受益于本章的部分内容。工程师可能希望探索更多的输出格式,看看有没有一些适合他们下游用户的格式。数据科学家可能会更关注他们已经使用的数据格式。 Motivation   我们已经介绍了大量分布式程序使用的Spark操作。目前为止,我 阅读全文
posted @ 2018-03-07 10:49 Tikko 阅读(816) 评论(0) 推荐(0) 编辑
摘要: Actions Available on Pair RDDs (键值对RDD可用的action)   和transformation(转换)一样,键值对RDD也可以使用基础RDD上的action(开工),并且键值对RDD有一些利用键值对数据特性的的action,如下表: 表4 3 阅读全文
posted @ 2018-03-03 17:06 Tikko 阅读(499) 评论(0) 推荐(0) 编辑
摘要:   本章介绍了如何使用键值对RDD,Spark中很多操作都基于此数据类型。键值对RDD通常在聚合操作中使用,而且我们经常做一些初始的ETL(extract(提取),transform(转换)和load(加载))来把数据转化成键值对格式。键值对中有很多新操作(如,计算每个产品的评价 阅读全文
posted @ 2018-02-26 14:08 Tikko 阅读(994) 评论(0) 推荐(0) 编辑
摘要: Common Transformations and Actions   本章中,我们浏览了Spark中大多数常见的transformation(转换)和action(开工)。在包含特定数据类型的RDD上可以进行额外的操作,例如,可以对纯数字RDD使用统计函数,对键值对的RDD进 阅读全文
posted @ 2018-02-24 13:29 Tikko 阅读(764) 评论(0) 推荐(0) 编辑