随笔档案「2020年7月」 - JacobZheng

Spark入门（第1讲）

摘要：一、Spark是什么引用官方文档的一句话Apache Spark™ is a unified analytics engine for large-scale data processing.Apache Spark™是用于大规模数据处理的统一分析引擎。可以从这句话拆分出几个关键点统一大数据分析引擎/计算引擎何为统一Spark的主要目标是为编写大数据应用程序提供统一的平台，其中包括统一计算引擎和统... 阅读全文

posted @ 2020-07-22 10:27 JacobZheng 阅读(367) 评论(0) 推荐(0)

深入理解JVM（二）垃圾收集器

摘要：GC三问：哪些内存需要回收？什么时候回收？如何回收？程序计数器、虚拟机栈、本地方法栈随线程而生，随线程而灭，栈帧的内存分配在类结构确定下来就已知，在方法结束或者线程结束时就会回收。所以垃圾回收关注的是动态的堆内存。ps. 方法区也能被回收，主要回收废弃常量和无用类，但性价比高，不过多描述。1.哪些内存需要回收这个问题的关键就是确定哪些内存是存活着，哪些内存死去（不再会被用到的）引用计数算法有引用时... 阅读全文

posted @ 2020-07-08 14:59 JacobZheng 阅读(232) 评论(0) 推荐(0)

数据治理工具调研之DataHub

摘要：1.项目简介Apache Atlas是Hadoop社区为解决Hadoop生态系统的元数据治理问题而产生的开源项目，它为Hadoop集群提供了包括数据分类、集中策略引擎、数据血缘、安全和生命周期管理在内的元数据治理核心能力。官网地址：http://atlas.apache.org/2.项目架构Data Hub使用的是Generalized metadata architecture(GMA)，重点面... 阅读全文

posted @ 2020-07-08 14:55 JacobZheng 阅读(6025) 评论(0) 推荐(0)

数据治理

摘要：1.为什么要数据治理Ebay--Why do we do data governanceTo ensure security and privacy of the data and access control.确保数据和访问控制的安全性和私密性。To capture the metadata of datasets for security and end-user data consumpti... 阅读全文

posted @ 2020-07-08 14:52 JacobZheng 阅读(554) 评论(1) 推荐(0)

JacobZheng

07 2020 档案

公告