07 2020 档案

摘要:一、Spark是什么引用官方文档的一句话Apache Spark™ is a unified analytics engine for large-scale data processing.Apache Spark™是用于大规模数据处理的统一分析引擎。可以从这句话拆分出几个关键点统一大数据分析引擎/计算引擎何为统一Spark的主要目标是为编写大数据应用程序提供统一的平台,其中包括统一计算引擎和统... 阅读全文
posted @ 2020-07-22 10:27 JacobZheng 阅读(330) 评论(0) 推荐(0)
摘要:GC三问:哪些内存需要回收?什么时候回收?如何回收?程序计数器、虚拟机栈、本地方法栈随线程而生,随线程而灭,栈帧的内存分配在类结构确定下来就已知,在方法结束或者线程结束时就会回收。所以垃圾回收关注的是动态的堆内存。ps. 方法区也能被回收,主要回收废弃常量和无用类,但性价比高,不过多描述。1.哪些内存需要回收这个问题的关键就是确定哪些内存是存活着,哪些内存死去(不再会被用到的)引用计数算法有引用时... 阅读全文
posted @ 2020-07-08 14:59 JacobZheng 阅读(223) 评论(0) 推荐(0)
摘要:1.项目简介Apache Atlas是Hadoop社区为解决Hadoop生态系统的元数据治理问题而产生的开源项目,它为Hadoop集群提供了包括数据分类、集中策略引擎、数据血缘、安全和生命周期管理在内的元数据治理核心能力。官网地址:http://atlas.apache.org/2.项目架构Data Hub使用的是Generalized metadata architecture(GMA),重点面... 阅读全文
posted @ 2020-07-08 14:55 JacobZheng 阅读(5817) 评论(0) 推荐(0)
摘要:1.为什么要数据治理Ebay--Why do we do data governanceTo ensure security and privacy of the data and access control.确保数据和访问控制的安全性和私密性。To capture the metadata of datasets for security and end-user data consumpti... 阅读全文
posted @ 2020-07-08 14:52 JacobZheng 阅读(539) 评论(1) 推荐(0)

点击右上角即可分享
微信分享提示