读数据质量管理:数据可靠性与数据质量问题解决之道20读后总结与感想兼导读
1. 基本信息
数据质量管理:数据可靠性与数据质量问题解决之道
-
[美] 巴尔·摩西,[美] 利奥·加维什,[美] 莫莉· 著
-
机械工业出版社,2024年5月出版
1.1. 读薄率
书籍总字数18.8万字,笔记总字数61295字。
读薄率61295÷188000≈32.6%
1.2. 读厚方向
-
Data Mesh权威指南
-
数据的边界:隐私与个人数据保护
-
数据保护:工作负载的可恢复性
-
Julia数据科学应用
-
MLOps权威指南
-
数据自助服务实践指南:数据开放与洞察提效
-
商战数据挖掘:你需要了解的数据科学与分析思维
-
Spark快速大数据分析(第2版)
1.3. 笔记--章节对应关系
笔记 | 章节 | 字数 | 发布日期 2024年 |
读数据质量管理:数据可靠性与数据质量问题解决之道01数据质量 | 第1章 为什么数据质量值得关注 | 3117 | 11月12日 |
读数据质量管理:数据可靠性与数据质量问题解决之道02数据湖仓 | 第2章 对可靠数据系统的构建模块进行组装 | 3345 | 11月13日 |
读数据质量管理:数据可靠性与数据质量问题解决之道03数据目录 | 第2章 对可靠数据系统的构建模块进行组装 | 2734 | 11月14日 |
读数据质量管理:数据可靠性与数据质量问题解决之道04收集与清洗 | 第3章 收集、清洗、转换和测试数据 | 3286 | 11月15日 |
读数据质量管理:数据可靠性与数据质量问题解决之道05数据标准化 | 第3章 收集、清洗、转换和测试数据 | 3462 | 11月16日 |
读数据质量管理:数据可靠性与数据质量问题解决之道06数据测试 | 第3章 收集、清洗、转换和测试数据 | 3802 | 11月17日 |
读数据质量管理:数据可靠性与数据质量问题解决之道07异常检测 | 第4章 数据管道的监控和异常检测 | 2209 | 11月18日 |
读数据质量管理:数据可靠性与数据质量问题解决之道08扩展异常检测 | 第4章 数据管道的监控和异常检测 | 3738 | 11月19日 |
读数据质量管理:数据可靠性与数据质量问题解决之道09数据可靠性 | 第5章 为数据可靠性进行架构设计 | 3272 | 11月20日 |
读数据质量管理:数据可靠性与数据质量问题解决之道10数据平台 | 第5章 为数据可靠性进行架构设计 | 3632 | 11月21日 |
读数据质量管理:数据可靠性与数据质量问题解决之道11根因分析 | 第6章 解决大规模数据质量问题 | 3319 | 11月22日 |
读数据质量管理:数据可靠性与数据质量问题解决之道12应对与缓解 | 第6章 解决大规模数据质量问题 | 2669 | 11月23日 |
读数据质量管理:数据可靠性与数据质量问题解决之道13数据沿袭 | 第7章 构建端到端的数据沿袭 | 3476 | 11月24日 |
读数据质量管理:数据可靠性与数据质量问题解决之道14普及数据质量 | 第8章 推广和普及数据质量 | 3193 | 11月25日 |
读数据质量管理:数据可靠性与数据质量问题解决之道15数据信任 | 第8章 推广和普及数据质量 | 2890 | 11月26日 |
读数据质量管理:数据可靠性与数据质量问题解决之道16数据认证 | 第8章 推广和普及数据质量 | 4296 | 11月27日 |
读数据质量管理:数据可靠性与数据质量问题解决之道17数据网格 | 第9章 现实世界中的数据质量:对话和案例分析 | 3346 | 11月28日 |
读数据质量管理:数据可靠性与数据质量问题解决之道18数据发现 | 第9章 现实世界中的数据质量:对话和案例分析 | 2821 | 11月29日 |
读数据质量管理:数据可靠性与数据质量问题解决之道19数据未来 | 第10章 开创可靠数据系统的未来 | 2688 | 11月30日 |
$ | 总计 | 61295 | $ |
2. 亮点
2.1 数据标准化很重要
-
标准化通常是你的数据在管道中经过的诸多此类转换中的第一个
-
非常重要
2.2 数据测试
- 数据测试的两个最佳工具分别是dbt测试和Great Expectation
2.3 数据沿袭
- 通俗点说,就是来龙去脉
2.4 数据信任
- 重中之重,不可信,有何用?
- 其实,也是很有用的。。。。。
- 比如,米国的那些非农啊、就业啊等等数据操控之用(冠冕堂皇地说法,预期管理)
3. 感想
3.1 总结要及时
- 总结一定要及时啊,因为时间长了,容易忘
- 但是,换一个说法,就是没有忘的,就是沉淀下来的精华啊
3.2 数据工程越来越重要
- 随着时代的发展,AI是数据需求的重头戏,而数据工程是保障数据质量的关键环境,“垃圾进,垃圾出“,数据工程势必占据越来越重要的地位
3.3 数据质量保障是一个长期、持续的过程
- 只要有数据产生,就要保障数据质量,不会一劳永逸,只会持续不断跟进
3.4 数据信任和操控
-
前文提到了数据操控,其实还是基于数据信任的
-
为什么要数据操控?是因为数据不符合预期。
-
为什么会认为数据不符合预期?是因为相信数据得到的结果,还是要信任啊。
-
也许你会说,样本取样的问题?为什么样本取样有问题?为什么不全面取样?是不能还是不敢,亦或是不为
-
修正前期的数据又为啥?