摘要: A/B实验 python 统计实验分析 阅读全文
posted @ 2024-07-23 17:08 gaussen126 阅读(87) 评论(0) 推荐(0) 编辑
摘要: python notebook 虚拟环境 阅读全文
posted @ 2024-07-22 17:27 gaussen126 阅读(890) 评论(0) 推荐(0) 编辑
摘要: pyspark mysql tutorial 阅读全文
posted @ 2024-07-15 18:08 gaussen126 阅读(16) 评论(0) 推荐(0) 编辑
摘要: 数据分析 分析方法 统计分析 阅读全文
posted @ 2023-05-22 15:25 gaussen126 阅读(294) 评论(0) 推荐(0) 编辑
摘要: 特征工程 阅读全文
posted @ 2023-05-22 15:05 gaussen126 阅读(101) 评论(0) 推荐(0) 编辑
摘要: flink CEP 复杂事件处理 阅读全文
posted @ 2023-05-18 14:59 gaussen126 阅读(271) 评论(0) 推荐(0) 编辑
摘要: 一、数据治理语境关系图 1、数据管理和数据治理 在正式讲数据治理之前,先区分下数据管理和数据治理的区别。数据管理的整体驱动力是确保组织可以从其数据中获得价值,更多是总体战略的层面;数据治理聚焦于如何制定有关数据的决策,以及人员和流程在数据方面的行为方式,更多是细节执行层面。 2、数据治理整体介绍 数 阅读全文
posted @ 2023-05-04 16:21 gaussen126 阅读(403) 评论(0) 推荐(0) 编辑
摘要: 数据管理是DMBOK的第一章,该章高度概括了整本书的内容,梳理了数据管理的领域、环境因素、基本原则、实现路径等知识内容。有关DABOK的综述和学习方法可以参考:DAMA数据管理知识体系指南(0):综述 & 学习指南。 一、数据管理的原则 1、整体原则解读 上图已经基本表达了在数据管理过程中,所需要遵 阅读全文
posted @ 2023-05-04 16:12 gaussen126 阅读(336) 评论(0) 推荐(0) 编辑
摘要: 我们,数据管理专业人员,经常使用术语“数据管理框架”。但是我们对它的含义和实现它的各种方法是否都具有相同的理解? 在本文中,我们将 讨论现有的数据管理框架 呈现各种框架的使用情况 定义术语“数据管理框架”。 说明建立数据管理框架的通用方法 现有的数据管理框架 DAMA 数据管理知识体系指南和 DCA 阅读全文
posted @ 2023-05-04 15:36 gaussen126 阅读(251) 评论(0) 推荐(0) 编辑
摘要: 什么是数据科学? 数据科学研究数据以提取对业务有意义的洞察。这是一种多学科的方法,可将数学、统计数据、人工智能以及计算机工程等领域的原则和实践结合起来,进而分析大量数据。此分析可帮助数据科学家提出和回答如下问题:发生了什么、为什么发生、将发生什么以及结果可以做什么。 数据科学为何如此重要? 数据科学 阅读全文
posted @ 2023-05-04 14:53 gaussen126 阅读(168) 评论(0) 推荐(0) 编辑
摘要: spark 开发实例 流处理 阅读全文
posted @ 2023-04-06 16:57 gaussen126 阅读(166) 评论(0) 推荐(0) 编辑
摘要: 主数据 参考数据 数据治理 企业数字化治理 阅读全文
posted @ 2023-03-21 15:27 gaussen126 阅读(754) 评论(0) 推荐(0) 编辑
摘要: spark 流计算 join 水印 窗口 spark structured streaming 阅读全文
posted @ 2022-12-13 17:13 gaussen126 阅读(510) 评论(0) 推荐(0) 编辑
摘要: 数仓模型 数仓建模 阿里 转载 阅读全文
posted @ 2022-11-23 15:11 gaussen126 阅读(297) 评论(0) 推荐(0) 编辑
摘要: canal kettle pentaho 阅读全文
posted @ 2022-11-11 16:55 gaussen126 阅读(1116) 评论(0) 推荐(0) 编辑
摘要: 数据仓库 数据集市 ELT 阅读全文
posted @ 2022-10-20 14:33 gaussen126 阅读(78) 评论(0) 推荐(0) 编辑
摘要: 数据职场 数据类岗位 数据职能划分 数据类岗位分类 阅读全文
posted @ 2022-10-14 10:49 gaussen126 阅读(464) 评论(0) 推荐(0) 编辑
摘要: CDH部署 阅读全文
posted @ 2022-07-22 19:39 gaussen126 阅读(712) 评论(0) 推荐(0) 编辑
摘要: 1,对比表: RDD Dataframe Dataset 版本 1.0 1.3 1.6 描述 分布式数据集合 行列化的分布式数据集合 RDD 和 DataFrame的结合 数据格式 结构化和非结构化都可以 结构化和半结构化都可以 结构化和非结构化都可以 数据源 多种 多种 多种 不变性和互通性 容易 阅读全文
posted @ 2022-07-06 15:01 gaussen126 阅读(94) 评论(0) 推荐(0) 编辑
摘要: 并发编程 多线程 阅读全文
posted @ 2022-06-30 12:10 gaussen126 阅读(154) 评论(0) 推荐(0) 编辑