随笔分类 -  大数据

摘要:一、Spark是什么引用官方文档的一句话Apache Spark™ is a unified analytics engine for large-scale data processing.Apache Spark™是用于大规模数据处理的统一分析引擎。可以从这句话拆分出几个关键点统一大数据分析引擎/计算引擎何为统一Spark的主要目标是为编写大数据应用程序提供统一的平台,其中包括统一计算引擎和统... 阅读全文
posted @ 2020-07-22 10:27 JacobZheng 阅读(330) 评论(0) 推荐(0)
摘要:1.项目简介Apache Atlas是Hadoop社区为解决Hadoop生态系统的元数据治理问题而产生的开源项目,它为Hadoop集群提供了包括数据分类、集中策略引擎、数据血缘、安全和生命周期管理在内的元数据治理核心能力。官网地址:http://atlas.apache.org/2.项目架构Data Hub使用的是Generalized metadata architecture(GMA),重点面... 阅读全文
posted @ 2020-07-08 14:55 JacobZheng 阅读(5816) 评论(0) 推荐(0)
摘要:1.为什么要数据治理Ebay--Why do we do data governanceTo ensure security and privacy of the data and access control.确保数据和访问控制的安全性和私密性。To capture the metadata of datasets for security and end-user data consumpti... 阅读全文
posted @ 2020-07-08 14:52 JacobZheng 阅读(539) 评论(1) 推荐(0)
摘要:[toc] Hadoop相关问题解决 Hive 1.查询hivemeta信息,查到的numRows为 1 | 集群厂商 | 集群版本 | 是否高可用 | 是否开启认证 | | | | | | | cdh | 不限 | 不限 | 不限 | 在hivemeta库中可以通过以下sql查询表的元数据信息 其 阅读全文
posted @ 2019-12-18 16:10 JacobZheng 阅读(7379) 评论(0) 推荐(1)
摘要:Zookeeper 简介 根据Zookeeper官方介绍 ZooKeeper is a high performance coordination service for distributed applications. It exposes common services such as nam 阅读全文
posted @ 2019-12-17 10:19 JacobZheng 阅读(194) 评论(0) 推荐(0)

点击右上角即可分享
微信分享提示