2020 年 3月 31 日随笔档案 - Be-myself

2020年3月31日

摘要： 1.Hbase起源 HBase是一个开源的非关系型分布式数据库，它参考了谷歌的BigTable建模，实现的编程语言为Java。它是Apache软件基金会的Hadoop项目的一部分，运行于HDFS文件系统之上，为 Hadoop 提供类似于BigTable 规模的服务。因此，它可以容错地存储海量稀疏的数阅读全文

posted @ 2020-03-31 16:20 Be-myself 阅读(294) 评论(0) 推荐(0) 编辑

Spark SQL简介

摘要： Spark SQL简介 Spark为结构化数据处理引入了一个称为Spark SQL的编程模块。它提供了一个称为DataFrame的编程抽象，并且可以充当分布式SQL查询引擎。 Spark SQL的特性以下是Spark SQL的功能集成无缝地将SQL查询与Spark程序混合。 Spark SQL 阅读全文

posted @ 2020-03-31 16:14 Be-myself 阅读(435) 评论(0) 推荐(0) 编辑

MapReduce

摘要： MapReduce是一种编程模型，用于大规模数据集（大于1TB）的并行运算。 MapReduce框架 MapReduce将复杂的，运行大规模集群上的并行计算过程高度地抽象两个函数：Map和Reduce MapReduce采用“分而治之”策略，将一个分布式文件系统中的大规模数据集，分成许多独立的分片。阅读全文

posted @ 2020-03-31 16:04 Be-myself 阅读(236) 评论(0) 推荐(0) 编辑

Hive

摘要： hive是基于Hadoop的一个数据仓库工具，用来进行数据提取、转化、加载，这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。 hive数据仓库工具能将结构化的数据文件映射为一张数据库表，并提供SQL查询功能，能将SQL语句转变成MapReduce任务来执行。 Hive的优点是学习阅读全文

posted @ 2020-03-31 15:58 Be-myself 阅读(157) 评论(0) 推荐(0) 编辑

UDW 云数据仓库

摘要：产品简介 UDW（UCloud Data Warehouse）是大规模并行处理数据仓库产品，提供Greenplum和Udpg两种可选的类型。Greenplum是EMC开源的数据仓库，Udpg是基于PostgreSQL开发的大规模并行、完全托管的PB级数据仓库服务。UDW支持JSON类型，可用通过SQ 阅读全文

posted @ 2020-03-31 15:47 Be-myself 阅读(1477) 评论(0) 推荐(0) 编辑

The snail

公告