数仓工具的介绍和工具的通用功能总结

随着数据收集手段不断丰富，行业数据大量积累，数据规模已增长到了传统软件行业无法承载的海量数据（百TB、PB、EB）级别。

1、种类

（1）Hive是基于Hadoop的一个数据仓库工具，用来进行数据提取、转化、加载，这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。hive数据仓库工具能将结构化的数据文件映射为一张数据库表，并提供SQL查询功能，能将SQL语句转变成MapReduce任务来执行。Hive的优点是学习成本低，可以通过类似SQL语句实现快速MapReduce统计，使MapReduce变得更加简单，而不必开发专门的MapReduce应用程序。hive是十分适合数据仓库的统计分析和Windows注册表文件。

（2）大数据计算服务（MaxCompute，原名ODPS）是一种快速、完全托管的EB级数据仓库解决方案，阿里云产品。 MaxCompute致力于批量结构化数据的存储和计算，提供海量数据仓库的解决方案及分析建模服务。由于单台服务器的处理能力有限，海量数据的分析需要分布式的计算模型。分布式的计算模型对数据分析人员要求较高且不易维护。数据分析人员不仅需要了解业务需求，同时还需要熟悉底层分布式计算模型。MaxCompute为您提供完善的数据导入方案以及多种经典的分布式计算模型，您可以不必关心分布式计算和维护细节，便可轻松完成大数据分析。

2、计算模型

（1）SQL：传统的数据库软件操作功能。
（2）MapReduce：MaxCompute MapReduce是MaxCompute提供的Java MapReduce编程模型，它可以简化开发流程，更为高效。使用MaxCompute MapReduce，需要对分布式计算概念有基本了解，并有相对应的编程经验。MaxCompute MapReduce为您提供Java编程接口。

（3）Graph：MaxCompute提供的Graph功能是一套面向迭代的图计算处理框架。图计算作业使用图进行建模，图由点（Vertex）和边（Edge）组成，点和边包含权值（Value）。通过迭代对图进行编辑、演化，最终求解出结果，典型应用：PageRank、单源最短距离算法、K-均值聚类算法等。

（4）SDK：是MaxCompute提供给开发者的工具包，当前支持Java SDK及Python SDK。

（5）UDF：即用户自定义函数。MaxCompute提供了很多内建函数来满足您的计算需求，同时您还可以通过创建自定义函数来满足不同的计算需求。

（6）Spark：Spark on MaxCompute：Spark on MaxCompute是阿里云开发的大数据分析引擎，为您提供大数据处理能力。详情请参见Spark概述。

（7）Machine Learning机器学习

参考：https://helpcdn.aliyun.com/document_detail/27800.html?spm=a2c4g.11186623.6.547.182e6322ip3piL

posted @ 2020-05-07 10:56 马踏飞燕Beautiful 阅读(1285) 评论(0) 收藏举报

刷新页面返回顶部

马踏飞燕Beautiful

优雅、明确、简单——喜欢的就争取、得到的就珍惜、失去了就忘记

数仓工具的介绍和工具的通用功能总结

公告