学习Hadoop和Spark的好的资源

1. 官网
http://spark.apache.org

有各种资源链接：

2. 总结得很好的个人博客
【从零开始学Hadoop系列】
1）初识
http://blog.csdn.net/u010168160/article/details/51314600
2）浅析HDFS（一）
http://blog.csdn.net/u010168160/article/details/51345107
3）浅析HDFS（二）
http://blog.csdn.net/u010168160/article/details/51351670
4）浅析HDFS（三）
http://blog.csdn.net/u010168160/article/details/51352221
5）浅析MapReduce（一）
http://blog.csdn.net/u010168160/article/details/51438897
6）浅析MapReduce（二）
http://blog.csdn.net/u010168160/article/details/51439402

【倾情大奉送--Spark入门实战系列】
http://www.cnblogs.com/shishanyuan/p/4699644.html

（作者已出书）

3. 名词解释：
shuffle ['ʃʌf(ə)l] n.洗牌；
fetch [fetʃ] v.（去）拿来；提取

RDD - Resilient Distributes Dataset，弹性分布式数据集。
resilient [rɪ'zɪljənt] adj.可迅速恢复的；有适应力的；有弹性（或弹力）的；
详见：
深入理解RDD - http://blog.csdn.net/u010719504/article/details/51592624
Spark RDD到底是个什么东西 - https://www.cnblogs.com/jechedo/p/5732951.html

HA - High Availability，高可用

DAG图
Directed Acyclic Graph，意思是有向无环图，所谓有向无环图是指任意一条边有方向，且不存在环路的图。

即席查询（Ad Hoc）
是用户根据自己的需求，灵活的选择查询条件，系统能够根据用户的选择生成相应的统计报表。即席查询与普通应用查询最大的不同是普通的应用查询是定制开发的，而即席查询是由用户自定义查询条件的。
在数据仓库领域有一个概念叫Ad hoc queries，中文一般翻译为“即席查询”。即席查询是指那些用户在使用系统时，根据自己当时的需求定义的查询。即席查询生成的方式很多，最常见的就是使用即席查询工具。一般的数据展现工具都会提供即席查询的功能。通常的方式是，将数据仓库中的维度表和事实表映射到语义层，用户可以通过语义层选择表，建立表间的关联，最终生成SQL语句。即席查询与通常查询从SQL语句上来说，并没有本质的差别。它们之间的差别在于，通常的查询在系统设计和实施时是已知的，所有我们可以在系统实施时通过建立索引、分区等技术来优化这些查询，使这些查询的效率很高。而即席查询是用户在使用时临时生产的，系统无法预先优化这些查询，所以即席查询也是评估数据仓库的一个重要指标。即席查询的位置通常是在关系型的数据仓库中，即在EDW或者ROLAP中。多维数据库有自己的存储方式，对即席查询和通常查询没有区别。在一个数据仓库系统中，即席查询使用的越多，对数据仓库的要求就越高，对数据模型的对称性的要求也越高。对称性的数据模型对所有的查询都是相同的，这也是维度建模的一个优点。

posted @ 2018-03-05 12:02 中年程序员阅读(731) 评论(0) 编辑收藏举报

刷新页面返回顶部

中年程序员

学习Hadoop和Spark的好的资源

公告