摘要:
大家好,我是独孤风。 又到了本周的开源项目推荐。数据质量是企业进行数据治理非常重要的一个环节,高质量的数据对管理决策,业务支撑都有非常重要的作用。 只有持续的数据质量改进才能推动数据治理体系的完善,差劲的数据质量就如同顽固的疾病一样,如果不能得到及时的改善,最终可能会导致重大的问题。 近几年来,管理 阅读全文
摘要:
大家好,我是独孤风,今天的元数据管理平台Datahub的系列教程,我们来聊一下Datahub CLI。也就是Datahub的客户端。 我们在安装和使用Datahub 的过程中遇到了很多问题。 如何安装Datahub ? 为什么总是拉取镜像? 如何启动Datahub ? 这些Datahub 的Dock 阅读全文
摘要:
大家好,我是独孤风。 数据可视化是数据领域一个非常重要的应用。而结合了数据可视化和数据探索功能的BI(商业智能)工具,更是被各大公司青睐。但是,由于数据可视化工具的开发成本过高,长期以来一直是商业化的BI工具处于垄断地位。 那么,有没有优秀的开源数据可视化与数据探索平台呢? 今天为大家推荐的开源项目 阅读全文
摘要:
大家好,我是独孤风。 这几年数据治理爆火,但迟迟没有一个优秀的开源数据治理平台的出现。很多公司选择元数据管理平台作为基础,再构建数据质量,数据血缘等工具。 今天为大家推荐的开源项目,是一个一体化的数据治理平台,一个平台解决了大部分问题。让我们一起来看看吧~ OpenMetadata是一个用于数据治理 阅读全文
摘要:
2023年是人工智能爆火的一年,ChatGPT为首的一系列的大模型的出现,让生成式人工智能彻底火了一把。但有人会说,GPT对于我们数据开发来说并没有什么作用啊? 今天为大家推荐的开源项目,就是GPT在数据领域的一个优秀实践项目。让我们一起来看看吧~ Chat2DB是一个集成了ChatGPT功能的数据 阅读全文
摘要:
大家好,我是独孤风,大数据流动的作者。 本文基于最新的 Hadoop 3.3.6 的版本编写,带大家通过单机版充分了解 Apache Hadoop 的使用。本文更强调实践,实践是大数据学习的重要环节,也能在实践中对该技术有更深的理解,所以一些理论知识建议大家多阅读相关的书籍(都在资料包中)。 本文档 阅读全文
摘要:
大家好,我是独孤风,从本周开始,争取每周为大家带来一个优秀的开源项目推荐。 开源项目不仅促进了技术的发展和普及,还为全球范围内的开发者和用户社区建立了一个共享知识、协作和创新的平台。站在巨人的肩膀上才能看的更远,我们平时也应该多多关注开源项目,不仅学习其丰富的知识,也要找机会为开源事业做出自己的贡献 阅读全文
摘要:
Apache Paimon是一个流式数据湖平台。致力于构建一个实时、高效的流式数据湖平台。这个项目采用了先进的流式计算技术,使企业能够实时处理和分析大量数据。Apache Paimon 的核心优势在于它对于大数据生态系统中流式处理的支持,尤其是在高并发和低延迟方面表现出色。 目前业界主流数据湖存储格 阅读全文
摘要:
上周,OpenAI开发者大会上OpenAI发布了一系列震撼人心的功能。而最让我感兴趣的,就是GPT4的数据分析功能了。话不多说,赶紧上号体验一下。 在最新登录GPT4的时候,都会有下面这个提示,目前已经支持联网,分析数据,生成图片的功能了。这是plus用户都可以使用的。 然后我们可以在上方很容易的选 阅读全文
摘要:
大家好,我是独孤风,一位曾经的港口煤炭工人,目前在某国企任大数据负责人,公众号大数据流动主理人。 首先告诉大家一个好消息,在大家共同的努力下,我们的CDMP国际数据治理认证训练营(7-8月)基本收官,全员成绩都已经公布,进入等证书的状态了,估计月底证书都能收到。 对于本次训练营我已经尽了自己最大的努 阅读全文