摘要: 数据治理工作推进过程中比较关键的一步就是数据标准化,这里的数据标准化是指根据相关规范将数据达成统一技术要求的过程。 我国的主要标准分类包括国家标准、行业标准、地方标准和团体标准、企业标准。我们用的比较多的一般就是国标、行标和企业标准。 一、国家标准 国家标准,即中华人民共和国国家标准,是指由国家标准 阅读全文
posted @ 2024-06-03 22:24 叁金 阅读(12) 评论(0) 推荐(0) 编辑
摘要: 上一篇对华为提出的数据治理框架进行了介绍,共包含七个模块:政策指引、数据架构管理、基于主业务流的业务对象识别、流程、组织、数据质量管理及IT。本篇内容我们先来聊一聊政策指引。 说句实在话,作为一个技术人员,我之前从来没有思考过数据治理所需要依赖的政策机制问题,即使在看DAMA、数据治理博文等各类教程 阅读全文
posted @ 2024-06-03 22:23 叁金 阅读(9) 评论(0) 推荐(0) 编辑
摘要: 从大数据平台开发人员转型做数据治理已有一年有余,伴随着数据治理工作愈加深入,也越来越期望自己对数据治理这个大的概念能够有一个体系化的认知,可以顺利的应对数据治理实施过程当中遇到的各种问题。 当下环境大部分的公司都在讲数据很重要,好像不需要普及数据治理的概念,大家都无师自通了一样。从字面意义上看,数据 阅读全文
posted @ 2024-06-03 22:22 叁金 阅读(6) 评论(0) 推荐(0) 编辑
摘要: 简介 同Hive Hook一样,Presto也支持自定义实现Event Listener,用于侦听Presto引擎执行查询时发生的事件,并作出相应的处理。我们可以利用该功能实现诸如自定义日志记录、调试和性能分析插件,帮助我们更好的运维Presto集群。但是不同于Hive Hook的是,在Presto 阅读全文
posted @ 2019-07-30 22:12 叁金 阅读(452) 评论(0) 推荐(0) 编辑
摘要: Presto因其优秀的查询速度被我们所熟知,它本身基于MPP架构,可以快速的对Hive数据进行查询,同时支持扩展Connector,目前对Mysql、MongoDB、Cassandra、Hive等等一系列的数据库都提供了Connector进行支持。是我们常用的SQL on Hadoop的解决方案。那 阅读全文
posted @ 2019-07-23 22:16 叁金 阅读(2182) 评论(0) 推荐(0) 编辑
摘要: 特别声明:本文来源于掘金,“预留”发表的 "Apache Calcite 论文学习笔记" 最近在关注大数据处理的技术和开源产品的实现,发现很多项目中都提到了一个叫 Apache Calcite 的东西。同样的东西一两次见不足为奇,可再三被数据处理领域的各个不同时期的产品提到就必须引起注意了。为此也搜 阅读全文
posted @ 2019-07-19 13:05 叁金 阅读(854) 评论(0) 推荐(0) 编辑
摘要: 之前我们提到大数据的时候就会提到Hadoop,Hadoop是大数据的基础框架,是大数据技术的代表。提到HDFS、MapReduce、Yarn,提到HBase、Hive、TEZ等Hadoop生态圈中的一个又一个开源组件。但是最近好像有点不一样了。 Hadoop三巨头 曾经的三巨头之一MapR向加州就业 阅读全文
posted @ 2019-07-18 23:14 叁金 阅读(1512) 评论(0) 推荐(0) 编辑
摘要: Hive作为SQL on Hadoop最稳定、应用最广泛的查询引擎被大家所熟知。但是由于基于MapReduce,查询执行速度太慢而逐步引入其他的近实时查询引擎如Presto等。值得关注的是Hive目前支持MapReduce、Tez和Spark三种执行引擎,同时Hive3也会支持联邦数据查询的功能。所 阅读全文
posted @ 2019-07-16 20:33 叁金 阅读(4178) 评论(0) 推荐(0) 编辑
摘要: 前言 数据时代,数据的多源集成和快速检索查询是第一步,配上数据分析及可视化才能算窥得大数据一角。 创建这个项目的主要目的一是对前期工作的一些总结,二是提升自己。 这里简单介绍一下sqlpro这个项目的核心功能。 本项目基于python的flask web框架。提供简单的页面(起初准备用vue写前端, 阅读全文
posted @ 2019-03-09 11:54 叁金 阅读(3510) 评论(0) 推荐(0) 编辑
摘要: 文章导读: 1. 什么是RBO? 2. 什么是CBO? 我们在工作中经常会听到这样的声音:“SQL查询慢?你给数据库加个索引啊”。虽然加索引并不一定能解决问题,但是这初步的体现了SQL优化的思想。 而数据库主要由三部分组成,分别是 解析器 、 优化器 和 执行引擎 。 其执行逻辑是我们输入的SQL语 阅读全文
posted @ 2019-03-09 11:43 叁金 阅读(2456) 评论(0) 推荐(0) 编辑