摘要:
1.Hbase起源 HBase是一个开源的非关系型分布式数据库,它参考了谷歌的BigTable建模,实现的编程语言为Java。它是Apache软件基金会的Hadoop项目的一部分,运行于HDFS文件系统之上,为 Hadoop 提供类似于BigTable 规模的服务。因此,它可以容错地存储海量稀疏的数 阅读全文
摘要:
Spark SQL简介 Spark为结构化数据处理引入了一个称为Spark SQL的编程模块。它提供了一个称为DataFrame的编程抽象,并且可以充当分布式SQL查询引擎。 Spark SQL的特性 以下是Spark SQL的功能 集成 无缝地将SQL查询与Spark程序混合。 Spark SQL 阅读全文
摘要:
MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算。 MapReduce框架 MapReduce将复杂的,运行大规模集群上的并行计算过程高度地抽象两个函数:Map和Reduce MapReduce采用“分而治之”策略,将一个分布式文件系统中的大规模数据集,分成许多独立的分片。 阅读全文
摘要:
hive是基于Hadoop的一个数据仓库工具,用来进行数据提取、转化、加载,这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。 hive数据仓库工具能将结构化的数据文件映射为一张数据库表,并提供SQL查询功能,能将SQL语句转变成MapReduce任务来执行。 Hive的优点是学习 阅读全文
摘要:
产品简介 UDW(UCloud Data Warehouse)是大规模并行处理数据仓库产品,提供Greenplum和Udpg两种可选的类型。Greenplum是EMC开源的数据仓库,Udpg是基于PostgreSQL开发的大规模并行、完全托管的PB级数据仓库服务。UDW支持JSON类型,可用通过SQ 阅读全文