摘要: 一、数据质量的好坏可以从数据的完整性、准确性、一致性和及时性等四个方面进行评估; 完整性:指数据的记录和信息是否完整,是否存在缺失的情况,数据的缺失主要包括记录的缺失或者表字段信息的缺失,两者都会造成统计结果不准确,完整性是数据质量基础的保障。比如交易中每天支付订单数据都在100W左右,如果某一天数 阅读全文
posted @ 2022-03-25 17:32 Shydow 阅读(365) 评论(0) 推荐(0) 编辑
摘要: 目前,公司里数据质量检测是通过配置规则报警来实现的,对于有些表需要用shell脚本来封装hivesql来进行检测,在时效性和准确上不能很好的满足,故尝试使用Deequ来做质量检测工具。 一、官网示例 package org.shydow.deequ import com.amazon.deequ.c 阅读全文
posted @ 2022-03-25 17:22 Shydow 阅读(984) 评论(0) 推荐(0) 编辑
摘要: 一、REGULAR JOIN INNER JOIN:在流处理任务中只用两条流JOIN到才输出,+[L, R] LEFT JOIN:在流处理任务中,左流数据到达之后,不管有没有JOIN到右流数据都会输出(JOIN到:+[L, R],没有JOIN:+[L, NULL]),如果右流数据到达之后,发现左流有 阅读全文
posted @ 2022-03-01 15:19 Shydow 阅读(1779) 评论(0) 推荐(0) 编辑
摘要: 一、创建拉链表 创建表 CREATE TABLE `ods_login`( | | `uid` string, | | `name` string, | | `phone` string, | | `date` string) | | PARTITIONED BY ( | | `dt` string 阅读全文
posted @ 2022-02-28 01:13 Shydow 阅读(357) 评论(0) 推荐(0) 编辑
摘要: 数据质量是保证数据应用的基础,它的评估标准主要包括四个方面:完整性、一致性、准确性、及时性。评估数据是否达到预期设定的质量要求,就可以通过这四个方面来进行判断。 阅读全文
posted @ 2022-02-23 11:23 Shydow 阅读(171) 评论(0) 推荐(0) 编辑
摘要: 一、DataHub安装 1、安装docker和docker-compose yum -y install docker curl -L "https://github.com/docker/compose/releases/download/1.29.2/docker-compose-$(uname 阅读全文
posted @ 2022-02-15 11:55 Shydow 阅读(4536) 评论(0) 推荐(0) 编辑
摘要: 一、SPARK结构化流一般包含以下几个部分: 获取一个或者多个流数据源:可以是kafka,文件, socket 使用DataFrame或者DataSet形式转换和操作流的逻辑 定义输出模式和触发器 写入下游存储系统中 二、数据源 socket object SocketStream { def ma 阅读全文
posted @ 2022-02-13 19:34 Shydow 阅读(246) 评论(0) 推荐(0) 编辑
摘要: 将python爬虫部署到docker环境中: 一、本地环境准备 main.py #!/usr/bin/env python # -*- encoding: utf-8 -*- ''' @File : main.py @Time : 2022/02/10 10:21:43 @Author : Shyd 阅读全文
posted @ 2022-01-20 19:45 Shydow 阅读(870) 评论(0) 推荐(0) 编辑
摘要: 一、Flume采集 Flume使用CDH自带的,需要调整Flume Java 堆栈的大小,具体的大小需要根据数据量情况调整,这里设置为4G source:kafka source channel:允许存在数据丢失的情况下,可以使用memory channel,性能较高,但在机器宕机等情况下会存在数据 阅读全文
posted @ 2022-01-15 17:50 Shydow 阅读(486) 评论(0) 推荐(0) 编辑
摘要: 一、SOURCE Mock Data package com.shydow.utils; import com.alibaba.fastjson.JSON; import com.alibaba.fastjson.JSONObject; import lombok.Data; import org. 阅读全文
posted @ 2022-01-11 15:45 Shydow 阅读(216) 评论(0) 推荐(0) 编辑