05 2018 档案

HBase 笔记
摘要:参考资料:HBase权威指南 一行由若干列组成,若干列又构成一个列族一个列族的所有列存储在同一个底层的存储文件里,这个文件叫HFile列族的数量有限制;一个列族里列的数量没限制谓词删除:例如允许用户只保存过去一周HBase中扩展和负载均衡的基本单位是region,一张表初始只有一个region,re 阅读全文

posted @ 2018-05-31 17:15 我和你并没有不同 阅读(198) 评论(0) 推荐(0) 编辑

spark Pair RDD 基础操作
摘要:下面是Pair RDD的API讲解 下面有两段示例代码,注意下面示例代码中返回值的数据类型 阅读全文

posted @ 2018-05-20 17:50 我和你并没有不同 阅读(238) 评论(0) 推荐(0) 编辑

spark 基本操作
摘要:结果如下: 阅读全文

posted @ 2018-05-20 17:10 我和你并没有不同 阅读(396) 评论(0) 推荐(0) 编辑

hdfs mapreduce hbase
摘要:参考资料:http://www.cnblogs.com/sharpxiajun/p/5585613.html 大数据时代的数据量是超大规模的,传统的关系数据库已经很难存储和管理这些数据了,为了存储海量数据,我们有了HDFS,它可以把成千上万台服务器上的硬盘聚集成一块超级大的硬盘,为了让这些数据产生价 阅读全文

posted @ 2018-05-19 22:51 我和你并没有不同 阅读(130) 评论(0) 推荐(0) 编辑

spark学习笔记
摘要:Spark通过减少磁盘IO来达到性能的提升 为了适应迭代计算,Spark将经常被重用的数据缓存到内存中以提升数据读取速度,当内存容量有限的时候则将数据存入磁盘中或根据最近最少使用页面置换算法(Least Recently Used,LRU)算法将内存中使用频率较低的文件空间收回,从而让新的数据进来 阅读全文

posted @ 2018-05-13 22:43 我和你并没有不同 阅读(118) 评论(0) 推荐(0) 编辑