随笔分类 - 数据治理
1
摘要:大家好,我是独孤风。在当今数据驱动的商业环境中,数据治理成为企业成功的关键因素之一,而数据血缘正是数据治理成功的一个关键。 本文我们详细探讨下数据血缘的特点都有什么?对比一下数据血缘、数据关系、数据分类、数据出处、知识图谱相关概念的关系。 本文为《数据血缘分析原理与实践 》一书读书笔记,部分观点参考
阅读全文
摘要:大家好,我是独孤风。在当今数据驱动的商业环境中,数据治理成为企业成功的关键因素之一,而数据血缘正是数据治理成功的一个关键。 本文我们详细探讨下数据血缘可视化是什么,该如何实现。并顺便对比一下Apache Atlas 、Datahub、Openmetadata、Marquez、SQLLineage、A
阅读全文
摘要:大家好,我是独孤风。在当今数据驱动的商业环境中,数据治理成为企业成功的关键因素之一。本文我们详细探讨下为什么需要数据血缘,并说明数据血缘如何帮助企业解决关键问题,特别是在不同行业中的实际应用。 本文为《数据血缘分析原理与实践 》一书读书笔记,部分观点参考自书中原文,如需更详细的了解学习,请大家支持原
阅读全文
摘要:大家好,我是独孤风。又到了好书推荐的时间。近几年来,国内数据治理蓬勃发展,数据的价值不断放大,数据正成为一种资产,也是新型的生产要素。数据血缘一词作为数据治理的一个核心概念,更是被频频提及。 但是国内数据治理方面的书籍还是少之又少,大多数还停留在纯理论阶段,与实践,行业联系不够紧密。不过好消息来了,
阅读全文
摘要: 1月11日,《关于加强数据资产管理的指导意见》发布,构建“市场主导、政府引导、多方共建”的数据资产治理模式,逐步建立完善数据资产管理制度,不断拓展应用场景,不断提升和丰富数据资产经济价值和社会价值,推进数据资产全过程管理以及合规化、标准化、增值化。通过加强和规范公共数据资产基础管理工作,探索公共
阅读全文
摘要:大家好,我是独孤风。元数据管理平台层出不穷,但目前主流的还是Atlas、Datahub、Openmetadata三家,那么我们该如何选择呢? 本文就带大家对比一下。要了解元数据管理平台,先要从架构说起。 元数据管理的架构与开源方案 下面介绍元数据管理的架构实现,不同的架构都对应了不同的开源实现。 下
阅读全文
摘要:大家好,我是独孤风。 这几年数据治理爆火,但迟迟没有一个优秀的开源数据治理平台的出现。很多公司选择元数据管理平台作为基础,再构建数据质量,数据血缘等工具。 今天为大家推荐的开源项目,是一个一体化的数据治理平台,一个平台解决了大部分问题。让我们一起来看看吧~ OpenMetadata是一个用于数据治理
阅读全文
摘要:大家好,我是独孤风。 今天我们来聊一下另一个元数据管理平台Apache Atlas。Atlas其实有一些年头了,是在2015年的时候就开源。 相对于Datahub来说,Atlas显得有一些“老”了,社区也远没有以前活跃。 但是,从稳定性和与Hadoop生态的融合度的角度来说,Atlas目前还是无可替
阅读全文
摘要:前几天,Datahub提供了最新的字段级别数据血缘功能,很多朋友迫不及待想对比一下Datahub的字段级血缘与Atlas的区别。 这个时候问题来了,在Atlas收集Hive血缘的时候,由于部分版本问题,没有显示出字段级的数据血缘。这是为什么呢?其实只要做一个简单的修复就可以了,但是知其然也要知其所以
阅读全文
摘要:大家好,我是独孤风。 近期Datahub进行了一次大的版本更新,从0.9版本以后Datahub也正式发布了列级别数据血缘的功能。 0.9.1版本又增加了,列的影响分析这个功能。 这样Datahub对于列级别数据血缘的功能支撑就非常完善了。 目前Datahub支持列级别数据血缘的主要功能有。 1、建立
阅读全文
摘要:大家好,我是独孤风。 2022年已过去一半多的时间了。这半年多,我们重点关注了LinkedIn Datahub、Atlas等元数据管理工具,了解了他们在数据治理领域的作用。 也关注了Apache Griffin等数据质量工具的使用。 但是,在数据工程领域这只是冰山一角,近期lakeFS高级工程师Ei
阅读全文
摘要:2022年7月21日,大家都被一则新闻刷屏了。 经查实,滴滴全球股份有限公司违反《网络安全法》《数据安全法》《个人信息保护法》的违法违规行为事实清楚、证据确凿、情节严重、性质恶劣。 7月21日,国家互联网信息办公室依据《网络安全法》《数据安全法》《个人信息保护法》《行政处罚法》等法律法规,对滴滴全球
阅读全文
摘要:最近一直在思考几个问题: 数据治理到底该如何学? 先学理论还是先学技术? 如何衡量自己数据治理学习的好坏程度? 有没有一些考试可以验证自己的学习成果? 如果需要招聘一个数据治理的专业人员,除了证书还应该考察他的什么能力? 有哪些书籍是学习数据治理适合阅读的? 如果要学习数据治理理论,应该如何是怎样的
阅读全文
摘要:开源数据质量管理工具预研——Griffin VS Deequ VS Great expectations VS Qualitis。 概述 数据质量监控(DQC)是最近很火的一个话题,也是数据治理中最重要的一环。有一句话说得好。数据质量未必是数据治理中最重要的一部分,但是数据质量可能是让数据治理工
阅读全文
摘要:提到格里芬—Griffin,大家想到更多的是篮球明星或者战队名,但在大数据领域Apache Griffin(以下简称Griffin)可是数据质量领域响当当的一哥。先说一句:Griffin是大数据质量监控领域唯一的Apache项目,懂了吧。 在不重视数据质量的大数据发展时期,Griffin并不能引
阅读全文
摘要:前言 每个组织都有自己的数据管理方式。有的公司准备自研并制定了长期计划,有的公司使用最新的数据管理工具和技术,有的公司则是为了满足监管机构的要求。这几种的思路完全不一样。 要让公司成为真正的数据驱动型组织,不仅仅需要制定数据策略或推出更新的软件技术。关键在于数据的整体治理和管理,解决这个问题
阅读全文
摘要:随着数字化转型的工作推进,数据治理的工作已经被越来越多的公司提上了日程。作为新一代的元数据管理平台,Datahub在近一年的时间里发展迅猛,大有取代老牌元数据管理工具Atlas之势。国内Datahub的资料非常少,大部分公司想使用Datahub作为自己的元数据管理平台,但可参考的资料太少。 所以整理
阅读全文
摘要:随着数字化转型的工作推进,数据治理的工作已经被越来越多的公司提上了日程。作为Hadoop生态最紧密的元数据管理与发现工具,Atlas在其中扮演着重要的位置。但是其官方文档不是很丰富,也不够详细。所以整理了这份文档供大家学习使用。 本文档基于Atlas2.1.0版本,整理自部分官网内容,各种博客及实践
阅读全文
摘要:距离上次atlas发布新版本已经有一年的时间了,但是这一年元数据管理平台的发展一直没有停止。Datahub,Amundsen等等,都在不断的更新着自己的版本。但是似乎Atlas在元数据管理,数据血缘领域的地位一直没有动摇。 最近Atlas终于迎来又一次大的更新,发布了全新的2.2.0版本。 首先来了
阅读全文
摘要:DataHub 首先,阿里云也有一款名为DataHub的产品,是一个流式处理平台,本文所述DataHub与其无关。 数据治理是大佬们最近谈的一个火热的话题。不管国家层面,还是企业层面现在对这个问题是越来越重视。数据治理要解决数据质量,数据管理,数据资产,数据安全等等。而数据治理的关键就在于元数据管理
阅读全文
1