随笔分类 - 大数据
摘要:大家好,我是独孤风。在当今数据驱动的商业环境中,数据治理成为企业成功的关键因素之一。对于数据血缘的定义,一直都有争论,本文我们详细探讨下什么是数据血缘,并说明数据血缘能分析什么。 本文为《数据血缘分析原理与实践 》一书读书笔记,部分观点参考自书中原文,如需更详细的了解学习,请大家支持原作者的辛苦付出
阅读全文
摘要:大家好,我是独孤风。 又到了本周的开源项目推荐。数据质量是企业进行数据治理非常重要的一个环节,高质量的数据对管理决策,业务支撑都有非常重要的作用。 只有持续的数据质量改进才能推动数据治理体系的完善,差劲的数据质量就如同顽固的疾病一样,如果不能得到及时的改善,最终可能会导致重大的问题。 近几年来,管理
阅读全文
摘要:大家好,我是独孤风,今天的元数据管理平台Datahub的系列教程,我们来聊一下Datahub CLI。也就是Datahub的客户端。 我们在安装和使用Datahub 的过程中遇到了很多问题。 如何安装Datahub ? 为什么总是拉取镜像? 如何启动Datahub ? 这些Datahub 的Dock
阅读全文
摘要:大家好,我是独孤风。 数据可视化是数据领域一个非常重要的应用。而结合了数据可视化和数据探索功能的BI(商业智能)工具,更是被各大公司青睐。但是,由于数据可视化工具的开发成本过高,长期以来一直是商业化的BI工具处于垄断地位。 那么,有没有优秀的开源数据可视化与数据探索平台呢? 今天为大家推荐的开源项目
阅读全文
摘要:大家好,我是独孤风,大数据流动的作者。 本文基于最新的 Hadoop 3.3.6 的版本编写,带大家通过单机版充分了解 Apache Hadoop 的使用。本文更强调实践,实践是大数据学习的重要环节,也能在实践中对该技术有更深的理解,所以一些理论知识建议大家多阅读相关的书籍(都在资料包中)。 本文档
阅读全文
摘要:Apache Paimon是一个流式数据湖平台。致力于构建一个实时、高效的流式数据湖平台。这个项目采用了先进的流式计算技术,使企业能够实时处理和分析大量数据。Apache Paimon 的核心优势在于它对于大数据生态系统中流式处理的支持,尤其是在高并发和低延迟方面表现出色。 目前业界主流数据湖存储格
阅读全文
摘要: 大家好,我是独孤风,一位曾经的港口煤炭工人,目前在某国企任大数据负责人,公众号大数据流动的作者。 虽然告诉自己要平静,但是当接到EMS录取通知书的那一刻,眼眶还是忍不住有些湿润。今年正好是是东北大学的建校100周年,录取通知书还附赠了小礼物。 是最近很火的一个话题,也是数据治理中最重要的一环。有一句话说得好。数据质量未必是数据治理中最重要的一部分,但是数据质量可能是让数据治理工
阅读全文
摘要: 今天来聊聊大数据相关的证书,提到证书就不得不说含金量。我们都知道注册会计师,注册电气工程师,注册消防工程师等等,相信都听过其他同学朋友有在考的,这种证书含金量就很高,而且可以挂靠的方式极大的提高收入水平。 一、大数据证书 那么问题来了,大数据有没有这种高含金量的证书呢?我也查了工信部的网站,
阅读全文
摘要: 用户画像是大数据顶层应用中最重要的一环,搭建一套适合本公司体系的用户画像尤为重要。但是,用户画像的资料往往理论居多,实践少,更少有工程化的实战案例。 本文档结合了常见的用户画像架构,使用Elasticsearch作为底层存储支撑,用户画像的检索和可视化效率得到了大幅度的提升。文档从用户画像的
阅读全文
摘要:据达摩院官网消息,12月28日,阿里巴巴达摩院发布2022十大科技趋势,这是达摩院连续第四年发布前沿科技趋势预测。 报告表示,达摩院以公开论文库和公开专利库作为基础数据进行分析,从 236 个领域中筛选出 159 个应用与基础科学领域,基于论文与专利数量的绝对值与增长率,筛选出在学界与产业界需要重点
阅读全文
摘要:随着数字化转型的工作推进,数据治理的工作已经被越来越多的公司提上了日程。作为新一代的元数据管理平台,Datahub在近一年的时间里发展迅猛,大有取代老牌元数据管理工具Atlas之势。国内Datahub的资料非常少,大部分公司想使用Datahub作为自己的元数据管理平台,但可参考的资料太少。 所以整理
阅读全文
摘要:大家好,我是独孤风。今天为大家推荐的是一个完全开源的项目StreamX。该项目的发起者Ben也是我的好朋友。 什么是StreamX,StreamX 是Flink & Spark极速开发脚手架,流批一体一站式大数据平台。 自2021年3月开源以来,贡献者已累计发展到10多位。 随着Flink&Spar
阅读全文
摘要:大数据的岗位都有哪些,都是做什么的?这个问题恐怕困扰着很多人,因为一直没有统一的标准,就容易造成这种混乱的情况。搜索某招聘网站,可以看到这样的结果。 其实有时候我都不知道自己是哪一个岗位,感觉都符合,感觉又不符合。 当然这种问题肯定是暂时,近日《大数据从业人员能力要求》正式发布,并于11月1日开始实
阅读全文