摘要:
大家好,我是独孤风。 近期Datahub进行了一次大的版本更新,从0.9版本以后Datahub也正式发布了列级别数据血缘的功能。 0.9.1版本又增加了,列的影响分析这个功能。 这样Datahub对于列级别数据血缘的功能支撑就非常完善了。 目前Datahub支持列级别数据血缘的主要功能有。 1、建立 阅读全文
摘要:
大数据发展到今天,扮演了越来越重要的作用。数据可以为各种组织和企业提供关键决策的支持,也可以通过数据分析帮助发现更多的有价值的东西,如商机、风险等等。 在数据治理工作开展的时候,往往会有一个专门负责数据治理工作的负责人,他和大数据的负责人共同保证数据的可靠性,合法合规性。因为只有这样的数据才是有价值 阅读全文
摘要:
大家好,我是独孤风。 2022年已过去一半多的时间了。这半年多,我们重点关注了LinkedIn Datahub、Atlas等元数据管理工具,了解了他们在数据治理领域的作用。 也关注了Apache Griffin等数据质量工具的使用。 但是,在数据工程领域这只是冰山一角,近期lakeFS高级工程师Ei 阅读全文
摘要:
2022年7月21日,大家都被一则新闻刷屏了。 经查实,滴滴全球股份有限公司违反《网络安全法》《数据安全法》《个人信息保护法》的违法违规行为事实清楚、证据确凿、情节严重、性质恶劣。 7月21日,国家互联网信息办公室依据《网络安全法》《数据安全法》《个人信息保护法》《行政处罚法》等法律法规,对滴滴全球 阅读全文
摘要:
最近一直在思考几个问题: 数据治理到底该如何学? 先学理论还是先学技术? 如何衡量自己数据治理学习的好坏程度? 有没有一些考试可以验证自己的学习成果? 如果需要招聘一个数据治理的专业人员,除了证书还应该考察他的什么能力? 有哪些书籍是学习数据治理适合阅读的? 如果要学习数据治理理论,应该如何是怎样的 阅读全文
摘要:
Superset终于迎来了又一个重大的版本更新。使用superset已经近三年的时间了,其为我们提供了数据可视化的解决方案。也成为了最好的商用BI的替代方案。 在Github上本次更新已经发布。 Pip相关软件包也已经发布。 2.0版本主要更新: 默认启用Explore控制面板中的拖放界 阅读全文
摘要:
开源数据质量管理工具预研——Griffin VS Deequ VS Great expectations VS Qualitis。 概述 数据质量监控(DQC)是最近很火的一个话题,也是数据治理中最重要的一环。有一句话说得好。数据质量未必是数据治理中最重要的一部分,但是数据质量可能是让数据治理工 阅读全文
摘要:
提到格里芬—Griffin,大家想到更多的是篮球明星或者战队名,但在大数据领域Apache Griffin(以下简称Griffin)可是数据质量领域响当当的一哥。先说一句:Griffin是大数据质量监控领域唯一的Apache项目,懂了吧。 在不重视数据质量的大数据发展时期,Griffin并不能引 阅读全文
摘要:
元数据管理平台Datahub最近的热度越来越高。已经更新到了0.8.40的版本,来咨询我的小伙伴也越来越多,特别是安装过程有很多问题。 考虑到有些企业部分数据服务是部署在内网的,那么离线安装Datahub就显得非常重要了。 而且对于在线安装遇到很多问题的情况,或者是网络不好的情况,用离线安装 阅读全文
摘要:
关注DTCC有几年了,还是在当中学到了很多的干货。今年我的大部分时间也都是投入在了数据治理的学习和数据治理工具的调研中。也非常渴望有这种机会去了解一下国内顶尖公司这方面的前沿技术与应用。 DTCC是什么? DTCC数据库大会是国内顶尖的数据领域技术峰会,每年都会举办。所探讨的技术方向往往是未 阅读全文