随笔分类 -  大数据

1 2 3 4 5 ··· 9 下一页
摘要:大家好,我是独孤风。在当今数据驱动的商业环境中,数据治理成为企业成功的关键因素之一。对于数据血缘的定义,一直都有争论,本文我们详细探讨下什么是数据血缘,并说明数据血缘能分析什么。 本文为《数据血缘分析原理与实践 》一书读书笔记,部分观点参考自书中原文,如需更详细的了解学习,请大家支持原作者的辛苦付出 阅读全文
posted @ 2024-07-09 09:51 独孤风 阅读(268) 评论(0) 推荐(0) 编辑
摘要:大家好,我是独孤风。 又到了本周的开源项目推荐。数据质量是企业进行数据治理非常重要的一个环节,高质量的数据对管理决策,业务支撑都有非常重要的作用。 只有持续的数据质量改进才能推动数据治理体系的完善,差劲的数据质量就如同顽固的疾病一样,如果不能得到及时的改善,最终可能会导致重大的问题。 近几年来,管理 阅读全文
posted @ 2024-01-05 08:29 独孤风 阅读(1623) 评论(0) 推荐(0) 编辑
摘要:大家好,我是独孤风,今天的元数据管理平台Datahub的系列教程,我们来聊一下Datahub CLI。也就是Datahub的客户端。 我们在安装和使用Datahub 的过程中遇到了很多问题。 如何安装Datahub ? 为什么总是拉取镜像? 如何启动Datahub ? 这些Datahub 的Dock 阅读全文
posted @ 2023-12-28 08:52 独孤风 阅读(476) 评论(0) 推荐(0) 编辑
摘要:大家好,我是独孤风。 数据可视化是数据领域一个非常重要的应用。而结合了数据可视化和数据探索功能的BI(商业智能)工具,更是被各大公司青睐。但是,由于数据可视化工具的开发成本过高,长期以来一直是商业化的BI工具处于垄断地位。 那么,有没有优秀的开源数据可视化与数据探索平台呢? 今天为大家推荐的开源项目 阅读全文
posted @ 2023-12-26 09:14 独孤风 阅读(1008) 评论(1) 推荐(0) 编辑
摘要:大家好,我是独孤风,大数据流动的作者。 本文基于最新的 Hadoop 3.3.6 的版本编写,带大家通过单机版充分了解 Apache Hadoop 的使用。本文更强调实践,实践是大数据学习的重要环节,也能在实践中对该技术有更深的理解,所以一些理论知识建议大家多阅读相关的书籍(都在资料包中)。 本文档 阅读全文
posted @ 2023-12-06 11:07 独孤风 阅读(1161) 评论(0) 推荐(0) 编辑
摘要:Apache Paimon是一个流式数据湖平台。致力于构建一个实时、高效的流式数据湖平台。这个项目采用了先进的流式计算技术,使企业能够实时处理和分析大量数据。Apache Paimon 的核心优势在于它对于大数据生态系统中流式处理的支持,尤其是在高并发和低延迟方面表现出色。 目前业界主流数据湖存储格 阅读全文
posted @ 2023-12-01 09:11 独孤风 阅读(200) 评论(0) 推荐(0) 编辑
摘要:​ 大家好,我是独孤风,一位曾经的港口煤炭工人,目前在某国企任大数据负责人,公众号大数据流动的作者。 ​ 虽然告诉自己要平静,但是当接到EMS录取通知书的那一刻,眼眶还是忍不住有些湿润。今年正好是是东北大学的建校100周年,录取通知书还附赠了小礼物。 ![](https://img2023.cnbl 阅读全文
posted @ 2023-06-30 06:07 独孤风 阅读(6820) 评论(79) 推荐(68) 编辑
摘要:前几天,Datahub提供了最新的字段级别数据血缘功能,很多朋友迫不及待想对比一下Datahub的字段级血缘与Atlas的区别。 这个时候问题来了,在Atlas收集Hive血缘的时候,由于部分版本问题,没有显示出字段级的数据血缘。这是为什么呢?其实只要做一个简单的修复就可以了,但是知其然也要知其所以 阅读全文
posted @ 2022-11-16 13:36 独孤风 阅读(1523) 评论(0) 推荐(0) 编辑
摘要:大家好,我是独孤风,一位曾经的港口煤炭工人,目前在某国企任大数据负责人,公众号大数据流动主理人,近日公众号粉丝也刚刚突破了万人算是一个小小的里程碑。 看着已经有一万人来关注自己,阅读过自己写的文章。心中还是感慨万千的。所以,借着这个机会,今天这篇文章来聊聊我自己。说起来我大学毕业已经有10年了,这 阅读全文
posted @ 2022-11-08 13:56 独孤风 阅读(1518) 评论(1) 推荐(8) 编辑
摘要:大家好,我是独孤风。 近期Datahub进行了一次大的版本更新,从0.9版本以后Datahub也正式发布了列级别数据血缘的功能。 0.9.1版本又增加了,列的影响分析这个功能。 这样Datahub对于列级别数据血缘的功能支撑就非常完善了。 目前Datahub支持列级别数据血缘的主要功能有。 1、建立 阅读全文
posted @ 2022-11-03 09:06 独孤风 阅读(861) 评论(0) 推荐(0) 编辑
摘要:大家好,我是独孤风。 2022年已过去一半多的时间了。这半年多,我们重点关注了LinkedIn Datahub、Atlas等元数据管理工具,了解了他们在数据治理领域的作用。 也关注了Apache Griffin等数据质量工具的使用。 但是,在数据工程领域这只是冰山一角,近期lakeFS高级工程师Ei 阅读全文
posted @ 2022-07-26 10:36 独孤风 阅读(704) 评论(0) 推荐(0) 编辑
摘要:最近一直在思考几个问题: 数据治理到底该如何学? 先学理论还是先学技术? 如何衡量自己数据治理学习的好坏程度? 有没有一些考试可以验证自己的学习成果? 如果需要招聘一个数据治理的专业人员,除了证书还应该考察他的什么能力? 有哪些书籍是学习数据治理适合阅读的? 如果要学习数据治理理论,应该如何是怎样的 阅读全文
posted @ 2022-07-21 11:15 独孤风 阅读(1513) 评论(0) 推荐(0) 编辑
摘要:​ Superset终于迎来了又一个重大的版本更新。使用superset已经近三年的时间了,其为我们提供了数据可视化的解决方案。也成为了最好的商用BI的替代方案。 ​ 在Github上本次更新已经发布。 Pip相关软件包也已经发布。 ​ 2.0版本主要更新: 默认启用Explore控制面板中的拖放界 阅读全文
posted @ 2022-07-20 11:09 独孤风 阅读(2404) 评论(0) 推荐(0) 编辑
摘要:开源数据质量管理工具预研——Griffin VS Deequ VS Great expectations VS Qualitis。 概述 ​ 数据质量监控(DQC)是最近很火的一个话题,也是数据治理中最重要的一环。有一句话说得好。数据质量未必是数据治理中最重要的一部分,但是数据质量可能是让数据治理工 阅读全文
posted @ 2022-07-18 09:48 独孤风 阅读(3666) 评论(0) 推荐(1) 编辑
摘要:​ 今天来聊聊大数据相关的证书,提到证书就不得不说含金量。我们都知道注册会计师,注册电气工程师,注册消防工程师等等,相信都听过其他同学朋友有在考的,这种证书含金量就很高,而且可以挂靠的方式极大的提高收入水平。 一、大数据证书 ​ 那么问题来了,大数据有没有这种高含金量的证书呢?我也查了工信部的网站, 阅读全文
posted @ 2022-03-11 13:07 独孤风 阅读(985) 评论(1) 推荐(0) 编辑
摘要:​ 用户画像是大数据顶层应用中最重要的一环,搭建一套适合本公司体系的用户画像尤为重要。但是,用户画像的资料往往理论居多,实践少,更少有工程化的实战案例。 ​ 本文档结合了常见的用户画像架构,使用Elasticsearch作为底层存储支撑,用户画像的检索和可视化效率得到了大幅度的提升。文档从用户画像的 阅读全文
posted @ 2022-01-12 10:08 独孤风 阅读(1154) 评论(0) 推荐(0) 编辑
摘要:据达摩院官网消息,12月28日,阿里巴巴达摩院发布2022十大科技趋势,这是达摩院连续第四年发布前沿科技趋势预测。 报告表示,达摩院以公开论文库和公开专利库作为基础数据进行分析,从 236 个领域中筛选出 159 个应用与基础科学领域,基于论文与专利数量的绝对值与增长率,筛选出在学界与产业界需要重点 阅读全文
posted @ 2021-12-29 09:56 独孤风 阅读(384) 评论(0) 推荐(0) 编辑
摘要:随着数字化转型的工作推进,数据治理的工作已经被越来越多的公司提上了日程。作为新一代的元数据管理平台,Datahub在近一年的时间里发展迅猛,大有取代老牌元数据管理工具Atlas之势。国内Datahub的资料非常少,大部分公司想使用Datahub作为自己的元数据管理平台,但可参考的资料太少。 所以整理 阅读全文
posted @ 2021-12-28 23:15 独孤风 阅读(17451) 评论(0) 推荐(7) 编辑
摘要:大家好,我是独孤风。今天为大家推荐的是一个完全开源的项目StreamX。该项目的发起者Ben也是我的好朋友。 什么是StreamX,StreamX 是Flink & Spark极速开发脚手架,流批一体一站式大数据平台。 自2021年3月开源以来,贡献者已累计发展到10多位。 随着Flink&Spar 阅读全文
posted @ 2021-12-07 09:52 独孤风 阅读(1859) 评论(0) 推荐(0) 编辑
摘要:大数据的岗位都有哪些,都是做什么的?这个问题恐怕困扰着很多人,因为一直没有统一的标准,就容易造成这种混乱的情况。搜索某招聘网站,可以看到这样的结果。 其实有时候我都不知道自己是哪一个岗位,感觉都符合,感觉又不符合。 当然这种问题肯定是暂时,近日《大数据从业人员能力要求》正式发布,并于11月1日开始实 阅读全文
posted @ 2021-11-04 13:02 独孤风 阅读(838) 评论(0) 推荐(0) 编辑

1 2 3 4 5 ··· 9 下一页
点击右上角即可分享
微信分享提示