摘要:
Datavines是一站式开源数据可观测性平台,提供元数据管理、数据概览报告、数据质量管理,数据分布查询、数据趋势洞察等核心能力,致力于帮助用户全面地了解和掌管数据,让您做到心中有数,目前作为 Datavane 开源组织的重点推荐项目,正式开源,欢迎大家使用。 阅读全文
摘要:
摘要:本文主要介绍基于源码部署 Datavines 和执行检查作业,内容主要分为以下几个部分: 平台介绍 快速部署 运行数据质量检查作业 Datavines 的目标是成为更好的数据可观测性领域的开源项目,为更多的用户去解决元数据管理和数据质量管理中遇到的问题。在此我们真诚欢迎更多的贡献者参与到社区建 阅读全文
摘要:
使用两表值比对的规则,通过编写 SQL 语句来统计今天和昨天的数据量,然后比较两个值,如果今天的值大于昨天的值则为真,否则为假。 阅读全文
摘要:
Metric 是 Datavines 中一个核心概念,一个 Metric 表示一个数据质量检查规则,比如空值检查和表行数检查都是一个规则。Metric 采用插件化设计,用户可以根据自己的需求来实现一个 Metric。下面我们来详细讲解一下如何自定义`Metric`。 ### 第一步 我们先了解下几个 阅读全文
摘要:
本文主要通过源码来了解SparkStreaming程序从任务生成到任务完成整个执行流程以及中间伴随的checkpoint操作 阅读全文
摘要:
- HashSet是如何保证元素的不重复和无序
- HashSet的增删(改查?)原理
- CopyOnWriteArraySet支持并发的原理
- CopyOnWriteArraySet的增删(改查?)原理 阅读全文
摘要:
ArrayList和CopyOnWriteArrayList 阅读全文
摘要:
Spark Streaming 调优指南 阅读全文
摘要:
使用Youtube视频数据集来进行Hive实战演练 阅读全文
摘要:
通过对BlockManager相关各个组件的分析来了解Block管理存储模块 阅读全文
摘要:
Spark操作HBase问题:java.io.IOException: Non-increasing Bloom keys 阅读全文
摘要:
Spark实战之HBase读写 阅读全文
摘要:
对ZooKeeper的简单概括 阅读全文
摘要:
通过解读Flume源码稍微深入地了解Source组件 阅读全文
摘要:
通过解读Flume源码来更深入地了解Sink组件 阅读全文
摘要:
通过解读源码来了解Channel、ChannelProcessor和ChannelSelector等细节 阅读全文
摘要:
通过源码解读Flume-ng的启动流程 阅读全文
摘要:
简单地比较了Hbase、HDFS和MapReduce在架构上的异同 阅读全文
摘要:
本文从HBase的设计背景、组件、流程、机制、实操等方面对HBase进行较为详细地分析,希望能够帮助大家更好地学习HBase 阅读全文
摘要:
本篇是关于HBase数据模型的官方文档翻译,希望能够帮助大家更好地学习HBase 阅读全文