随笔分类 - 大数据
摘要:一、Spark是什么引用官方文档的一句话Apache Spark™ is a unified analytics engine for large-scale data processing.Apache Spark™是用于大规模数据处理的统一分析引擎。可以从这句话拆分出几个关键点统一大数据分析引擎/计算引擎何为统一Spark的主要目标是为编写大数据应用程序提供统一的平台,其中包括统一计算引擎和统...
阅读全文
摘要:1.项目简介Apache Atlas是Hadoop社区为解决Hadoop生态系统的元数据治理问题而产生的开源项目,它为Hadoop集群提供了包括数据分类、集中策略引擎、数据血缘、安全和生命周期管理在内的元数据治理核心能力。官网地址:http://atlas.apache.org/2.项目架构Data Hub使用的是Generalized metadata architecture(GMA),重点面...
阅读全文
摘要:1.为什么要数据治理Ebay--Why do we do data governanceTo ensure security and privacy of the data and access control.确保数据和访问控制的安全性和私密性。To capture the metadata of datasets for security and end-user data consumpti...
阅读全文
摘要:[toc] Hadoop相关问题解决 Hive 1.查询hivemeta信息,查到的numRows为 1 | 集群厂商 | 集群版本 | 是否高可用 | 是否开启认证 | | | | | | | cdh | 不限 | 不限 | 不限 | 在hivemeta库中可以通过以下sql查询表的元数据信息 其
阅读全文
摘要:Zookeeper 简介 根据Zookeeper官方介绍 ZooKeeper is a high performance coordination service for distributed applications. It exposes common services such as nam
阅读全文