摘要:
##一、什么是Spark? (官网:http://spark.apache.org) ####1、什么是Spark? 我的理解:Spark是一个针对大规模数据处理的快速通用引擎。 Spark是一种快速、通用、可扩展的大数据分析引擎,2009年诞生于加州大学伯克利分校AMPLab,2010年开源,20 阅读全文
摘要:
##一、Sqoop简介 Apache Sqoop(TM)是一种旨在有效地在Apache Hadoop和诸如关系数据库等结构化数据存储之间传输大量数据的工具。 Sqoop于2012年3月孵化出来,现在是一个顶级的Apache项目。 请注意,1.99.7与1.4.6不兼容,且没有特征不完整,它并不打算用 阅读全文
摘要:
##一、HBaes介绍 ####1、HBase简介 HBase是一个分布式的、面向列的开源数据库,它是一个适合于非结构化数据存储的数据库。另一个不同的是HBase基于列的而不是基于行的模式。 大:上亿行、百万列 面向列:面向列(族)的存储和权限控制,列(簇)独立检索 稀疏:对于为空(null)的列, 阅读全文