……

2022年8月31日
摘要: 大数据概要 流程图解析 1)数据采集:定制开发采集程序,或使用开源框架FLUME 2)数据预处理:定制开发mapreduce程序运行于hadoop集群 3)数据仓库技术:基于hadoop之上的Hive 4)数据导出:基于hadoop的sqoop数据导入导出工具 5)数据可视化:定制开发web程序或使 阅读全文
posted @ 2022-08-31 23:44 大码王 阅读(254) 评论(1) 推荐(0) 编辑
摘要: 一、介绍 在构建数据湖时,也许没有比数据格式存储更具有意义的决定。其结果将对其性能、可用性和兼容性产生直接影响。 通过简单地改变数据的存储格式,我们就可以解锁新的功能,提高整个系统的性能,这很有启发意义。 Apache Hudi、Apache Iceberg 和 Delta Lake是目前为数据湖设 阅读全文
posted @ 2022-08-31 23:39 大码王 阅读(667) 评论(0) 推荐(0) 编辑
摘要: 首先,数据传输组件: ①Kafka是用Scala编写的分布式消息处理平台。 ②Logstash是用JRuby编写的一种分布式日志收集框架。 ③Flume是用Java编写的分布式实时日志收集框架。 其次,数据存储组件: ④HDFS (Hadoop Distributed File System)用Ja 阅读全文
posted @ 2022-08-31 23:38 大码王 阅读(907) 评论(0) 推荐(0) 编辑
摘要: (1) OGG Oracle GoldenGate 是一款实时访问、基于日志变化捕捉数据,并且在异构平台之间迚行数据传输的产品。GoldenGate TDM是一种基于软件的数据复制方式,它从数据库的日志解析数据的变化(数据量只有日志的四分之一左右)。GoldenGate TDM将数据变化转化为自己的 阅读全文
posted @ 2022-08-31 23:29 大码王 阅读(3767) 评论(1) 推荐(1) 编辑
摘要: Golden Gate(简称OGG)提供异构环境下交易数据的实时捕捉、变换、投递。 1、OGG原理 OGG是一种基于日志的结构化数据复制软件,通过捕获源数据库online redo log (在线重做日志)或archive log(归档日志)获得数据变化,形成tail(队列文件 ),再将这些tail 阅读全文
posted @ 2022-08-31 23:27 大码王 阅读(92) 评论(0) 推荐(0) 编辑
摘要: 1. 什么是Redis?它主要用来什么的? Redis,英文全称是Remote Dictionary Server(远程字典服务),是一个开源的使用ANSI C语言编写、支持网络、可基于内存亦可持久化的日志型、Key-Value数据库,并提供多种语言的API。 与MySQL数据库不同的是,Redis 阅读全文
posted @ 2022-08-31 23:21 大码王 阅读(121) 评论(0) 推荐(0) 编辑
摘要: 1、 HBase的特点是什么?1)大:一个表可以有数十亿行,上百万列;2)无模式:每行都有一个可排序的主键和任意多的列,列可以根据需要动态的增加,同一张表中不同的行可以有截然不同的列;3)面向列:面向列(族)的存储和权限控制,列(族)独立检索;4)稀疏:空(null)列并不占用存储空间,表可以设计的 阅读全文
posted @ 2022-08-31 23:18 大码王 阅读(95) 评论(0) 推荐(0) 编辑
摘要: 第一章、datax入门 一. DataX3.0概览 DataX 是一个异构数据源离线同步工具,致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能。 (这是一个单机多任务的ETL工具) 下载地址:​ ​h 阅读全文
posted @ 2022-08-31 23:10 大码王 阅读(471) 评论(0) 推荐(1) 编辑
摘要: flume概述 Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。 使用Taildir Source采集文件夹数据 阅读全文
posted @ 2022-08-31 23:07 大码王 阅读(77) 评论(0) 推荐(0) 编辑
摘要: sqoop概述 sqoop是连接关系型数据库和hadoop的桥梁,主要有两个方面(导入和导出): A. 将关系型数据库的数据导入到Hadoop 及其相关的系统中,如 Hive和HBase B. 将数据从Hadoop 系统里抽取并导出到关系型数据库 1、Sqoop导入导出Null存储一致性问题 Hiv 阅读全文
posted @ 2022-08-31 23:06 大码王 阅读(69) 评论(0) 推荐(0) 编辑
摘要: 1 cdc 简介 CDC (Change Data Capture) 是一种用于捕捉数据库变更数据的技术,Flink 从 1.11 版本开始原生支持 CDC 数据(changelog)的处理,目前已经是非常成熟的变更数据处理方案。 Flink CDC Connectors 是 Flink 的一组 S 阅读全文
posted @ 2022-08-31 23:05 大码王 阅读(676) 评论(0) 推荐(0) 编辑
摘要: 1.什么是Apache Flink(为什么使用 Flink 替代 Spark?) Apache Flink 是一个开源的基于流的有状态计算框架。它是分布式地执行的,具备低延迟、高吞吐的优秀性能,并且非常擅长处理有状态的复杂计算逻辑场景。 2.Flink 的核心概念 Flink 的核心概念主要有四个: 阅读全文
posted @ 2022-08-31 23:03 大码王 阅读(673) 评论(0) 推荐(0) 编辑
摘要: 一、Spark 基础篇 1、Spark 是什么? Spark 是一个通用分布式内存计算引擎。2009 年在加州大学伯克利分校 AMP 实验室诞生,2014 年 2 月,Spark 成为 Apache 的顶级项目。Logo 标志如下: 2、Spark 有哪些特点? Spark 使用 Scala 语言进 阅读全文
posted @ 2022-08-31 23:02 大码王 阅读(193) 评论(0) 推荐(0) 编辑
摘要: 1、简单介绍一下ClickHouse ClickHouse是一个用于联机分析(OLAP)的列式数据库管理系统(DBMS)。主要用于WEB流量分析。ClickHouse的全称是Click Stream,Data WareHouse,简称ClickHouse。 ClickHouse非常适用于商业智能领域 阅读全文
posted @ 2022-08-31 23:01 大码王 阅读(2999) 评论(0) 推荐(0) 编辑
摘要: 1、 什么是 kafka ? Kafka 起初是由 Linkedin 公司采用 Scala 语言开发的一个多分区、多副本且基于ZooKeeper协调的分布式消息系统,现己被捐献给 Apache 基金会。目前 Kafka 已经定位为一个分布式流式处理平台,它以高吞吐、可持久化、可水平扩展、支持流数据处 阅读全文
posted @ 2022-08-31 22:56 大码王 阅读(175) 评论(0) 推荐(0) 编辑
摘要: Python及PyCharm的环境搭建 一、安装Python解释器 官网下载地址:https://www.python.org/,以Windows为例。 1.点击Downloads—>All releases >点击Python3.9.0 2.下载完成后,双击python-3.9.0-amd64.e 阅读全文
posted @ 2022-08-31 10:38 大码王 阅读(554) 评论(0) 推荐(0) 编辑
复制代码