会员
周边
众包
新闻
博问
闪存
赞助商
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
SAM's DATA RIVER
山姆大叔的 DATA BLOG
博客园
首页
新随笔
联系
管理
订阅
1
2
下一页
2024年7月23日
Python 使用 Pandas concat、merge和join dataframe
摘要: pandas 数据合并 merge concat join 区别
阅读全文
posted @ 2024-07-23 17:35 gaussen126
阅读(8)
评论(0)
推荐(0)
编辑
使用 Python 进行 A/B 测试
摘要: A/B实验 python 统计实验分析
阅读全文
posted @ 2024-07-23 17:08 gaussen126
阅读(14)
评论(0)
推荐(0)
编辑
2024年7月22日
在 Jupyter Notebook 中使用Python虚拟环境
摘要: python notebook 虚拟环境
阅读全文
posted @ 2024-07-22 17:27 gaussen126
阅读(83)
评论(0)
推荐(0)
编辑
2024年7月15日
pyspark 开发实例--融合3种等级类型API(rdd api - dataframe api - SQL api)
摘要: pyspark mysql tutorial
阅读全文
posted @ 2024-07-15 18:08 gaussen126
阅读(4)
评论(0)
推荐(0)
编辑
2023年5月22日
16种常用的数据分析方法汇总(转载)
摘要: 数据分析 分析方法 统计分析
阅读全文
posted @ 2023-05-22 15:25 gaussen126
阅读(244)
评论(0)
推荐(0)
编辑
数据工程系列精讲(第三讲): Data-centric AI 之特征工程 (转载)
摘要: 特征工程
阅读全文
posted @ 2023-05-22 15:05 gaussen126
阅读(72)
评论(0)
推荐(0)
编辑
2023年5月18日
flink CEP 介绍和实例
摘要: flink CEP 复杂事件处理
阅读全文
posted @ 2023-05-18 14:59 gaussen126
阅读(232)
评论(0)
推荐(0)
编辑
2023年5月4日
DAMA数据管理知识体系指南(3):数据治理(转载)
摘要: 一、数据治理语境关系图 1、数据管理和数据治理 在正式讲数据治理之前,先区分下数据管理和数据治理的区别。数据管理的整体驱动力是确保组织可以从其数据中获得价值,更多是总体战略的层面;数据治理聚焦于如何制定有关数据的决策,以及人员和流程在数据方面的行为方式,更多是细节执行层面。 2、数据治理整体介绍 数
阅读全文
posted @ 2023-05-04 16:21 gaussen126
阅读(303)
评论(0)
推荐(0)
编辑
DAMA数据管理知识体系指南(1):数据管理(转载)
摘要: 数据管理是DMBOK的第一章,该章高度概括了整本书的内容,梳理了数据管理的领域、环境因素、基本原则、实现路径等知识内容。有关DABOK的综述和学习方法可以参考:DAMA数据管理知识体系指南(0):综述 & 学习指南。 一、数据管理的原则 1、整体原则解读 上图已经基本表达了在数据管理过程中,所需要遵
阅读全文
posted @ 2023-05-04 16:12 gaussen126
阅读(285)
评论(0)
推荐(0)
编辑
数据管理框架:定义、原因以及实施(转载)
摘要: 我们,数据管理专业人员,经常使用术语“数据管理框架”。但是我们对它的含义和实现它的各种方法是否都具有相同的理解? 在本文中,我们将 讨论现有的数据管理框架 呈现各种框架的使用情况 定义术语“数据管理框架”。 说明建立数据管理框架的通用方法 现有的数据管理框架 DAMA 数据管理知识体系指南和 DCA
阅读全文
posted @ 2023-05-04 15:36 gaussen126
阅读(195)
评论(0)
推荐(0)
编辑
什么是数据科学(转载)
摘要: 什么是数据科学? 数据科学研究数据以提取对业务有意义的洞察。这是一种多学科的方法,可将数学、统计数据、人工智能以及计算机工程等领域的原则和实践结合起来,进而分析大量数据。此分析可帮助数据科学家提出和回答如下问题:发生了什么、为什么发生、将发生什么以及结果可以做什么。 数据科学为何如此重要? 数据科学
阅读全文
posted @ 2023-05-04 14:53 gaussen126
阅读(101)
评论(0)
推荐(0)
编辑
2023年4月6日
spark 流处理实例
摘要: spark 开发实例 流处理
阅读全文
posted @ 2023-04-06 16:57 gaussen126
阅读(152)
评论(0)
推荐(0)
编辑
2023年3月21日
什么是主数据?(转载)
摘要: 主数据 参考数据 数据治理 企业数字化治理
阅读全文
posted @ 2023-03-21 15:27 gaussen126
阅读(608)
评论(0)
推荐(0)
编辑
2022年12月13日
spark structured streaming (结构化流) join 操作( 官方文档翻译)
摘要: spark 流计算 join 水印 窗口 spark structured streaming
阅读全文
posted @ 2022-12-13 17:13 gaussen126
阅读(395)
评论(0)
推荐(0)
编辑
2022年11月23日
(转)阿里大数据之路:数据模型篇大总结
摘要: 数仓模型 数仓建模 阿里 转载
阅读全文
posted @ 2022-11-23 15:11 gaussen126
阅读(288)
评论(0)
推荐(0)
编辑
2022年11月11日
mysql-canal-kafka-kettle 数据实时同步链部署bug 填坑过程
摘要: canal kettle pentaho
阅读全文
posted @ 2022-11-11 16:55 gaussen126
阅读(1038)
评论(0)
推荐(0)
编辑
2022年10月20日
数据仓库的几个概念对比
摘要: 数据仓库 数据集市 ELT
阅读全文
posted @ 2022-10-20 14:33 gaussen126
阅读(73)
评论(0)
推荐(0)
编辑
2022年10月14日
各种数据岗位的区别
摘要: 数据职场 数据类岗位 数据职能划分 数据类岗位分类
阅读全文
posted @ 2022-10-14 10:49 gaussen126
阅读(387)
评论(0)
推荐(0)
编辑
2022年7月22日
大数据开源平台CDH 集群(CM6.3.1 + CDH 6.3.2)的部署
摘要: CDH部署
阅读全文
posted @ 2022-07-22 19:39 gaussen126
阅读(682)
评论(0)
推荐(0)
编辑
2022年7月6日
Spark 中三种数据处理对象的区别: RDD-Dataset-Dataframe
摘要: 1,对比表: RDD Dataframe Dataset 版本 1.0 1.3 1.6 描述 分布式数据集合 行列化的分布式数据集合 RDD 和 DataFrame的结合 数据格式 结构化和非结构化都可以 结构化和半结构化都可以 结构化和非结构化都可以 数据源 多种 多种 多种 不变性和互通性 容易
阅读全文
posted @ 2022-07-06 15:01 gaussen126
阅读(80)
评论(0)
推荐(0)
编辑
1
2
下一页
公告