关闭页面特效

2022年8月31日

摘要：大数据概要流程图解析 1)数据采集：定制开发采集程序，或使用开源框架FLUME 2)数据预处理：定制开发mapreduce程序运行于hadoop集群 3)数据仓库技术：基于hadoop之上的Hive 4)数据导出：基于hadoop的sqoop数据导入导出工具 5)数据可视化：定制开发web程序或使阅读全文

posted @ 2022-08-31 23:44 大码王阅读(262) 评论(1) 推荐(0) 编辑

数据湖三剑客 Hudi、Delta、Iceberg 对比

摘要：一、介绍在构建数据湖时，也许没有比数据格式存储更具有意义的决定。其结果将对其性能、可用性和兼容性产生直接影响。通过简单地改变数据的存储格式，我们就可以解锁新的功能，提高整个系统的性能，这很有启发意义。 Apache Hudi、Apache Iceberg 和 Delta Lake是目前为数据湖设阅读全文

posted @ 2022-08-31 23:39 大码王阅读(697) 评论(0) 推荐(0) 编辑

大数据分析常用组件、框架、架构介绍（Hadoop、Spark、Storm、Flume、Kafka、Logstash、HDFS、HBase）

摘要：首先，数据传输组件： ①Kafka是用Scala编写的分布式消息处理平台。 ②Logstash是用JRuby编写的一种分布式日志收集框架。 ③Flume是用Java编写的分布式实时日志收集框架。其次，数据存储组件： ④HDFS (Hadoop Distributed File System)用Ja 阅读全文

posted @ 2022-08-31 23:38 大码王阅读(1121) 评论(0) 推荐(0) 编辑

各种开源数据库同步工具汇总

摘要： (1) OGG Oracle GoldenGate 是一款实时访问、基于日志变化捕捉数据，并且在异构平台之间迚行数据传输的产品。GoldenGate TDM是一种基于软件的数据复制方式，它从数据库的日志解析数据的变化（数据量只有日志的四分之一左右）。GoldenGate TDM将数据变化转化为自己的阅读全文

posted @ 2022-08-31 23:29 大码王阅读(4008) 评论(1) 推荐(1) 编辑

OCG面试

摘要： Golden Gate（简称OGG）提供异构环境下交易数据的实时捕捉、变换、投递。 1、OGG原理 OGG是一种基于日志的结构化数据复制软件，通过捕获源数据库online redo log (在线重做日志)或archive log(归档日志)获得数据变化，形成tail（队列文件）,再将这些tail 阅读全文

posted @ 2022-08-31 23:27 大码王阅读(96) 评论(0) 推荐(0) 编辑

Redis面试

摘要： 1. 什么是Redis？它主要用来什么的？ Redis，英文全称是Remote Dictionary Server（远程字典服务），是一个开源的使用ANSI C语言编写、支持网络、可基于内存亦可持久化的日志型、Key-Value数据库，并提供多种语言的API。与MySQL数据库不同的是，Redis 阅读全文

posted @ 2022-08-31 23:21 大码王阅读(125) 评论(0) 推荐(0) 编辑

HBase面试题整理

摘要： 1、 HBase的特点是什么？1）大：一个表可以有数十亿行，上百万列；2）无模式：每行都有一个可排序的主键和任意多的列，列可以根据需要动态的增加，同一张表中不同的行可以有截然不同的列；3）面向列：面向列（族）的存储和权限控制，列（族）独立检索；4）稀疏：空（null）列并不占用存储空间，表可以设计的阅读全文

posted @ 2022-08-31 23:18 大码王阅读(102) 评论(0) 推荐(0) 编辑

DataX面试

摘要：第一章、datax入门一. DataX3.0概览 DataX 是一个异构数据源离线同步工具，致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能。（这是一个单机多任务的ETL工具）下载地址： h 阅读全文

posted @ 2022-08-31 23:10 大码王阅读(480) 评论(0) 推荐(1) 编辑

Flume面试

摘要： flume概述 Flume是Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统，Flume支持在日志系统中定制各类数据发送方，用于收集数据；同时，Flume提供对数据进行简单处理，并写到各种数据接受方（可定制）的能力。使用Taildir Source采集文件夹数据阅读全文

posted @ 2022-08-31 23:07 大码王阅读(81) 评论(0) 推荐(0) 编辑

Sqoop面试题

摘要： sqoop概述 sqoop是连接关系型数据库和hadoop的桥梁，主要有两个方面(导入和导出)： A. 将关系型数据库的数据导入到Hadoop 及其相关的系统中，如 Hive和HBase B. 将数据从Hadoop 系统里抽取并导出到关系型数据库 1、Sqoop导入导出Null存储一致性问题 Hiv 阅读全文

posted @ 2022-08-31 23:06 大码王阅读(75) 评论(0) 推荐(0) 编辑

Flink CDC 高频面试题

摘要： 1 cdc 简介 CDC (Change Data Capture) 是一种用于捕捉数据库变更数据的技术，Flink 从 1.11 版本开始原生支持 CDC 数据（changelog）的处理，目前已经是非常成熟的变更数据处理方案。 Flink CDC Connectors 是 Flink 的一组 S 阅读全文

posted @ 2022-08-31 23:05 大码王阅读(729) 评论(0) 推荐(0) 编辑

Flink面试题

摘要： 1.什么是Apache Flink（为什么使用 Flink 替代 Spark？） Apache Flink 是一个开源的基于流的有状态计算框架。它是分布式地执行的，具备低延迟、高吞吐的优秀性能，并且非常擅长处理有状态的复杂计算逻辑场景。 2.Flink 的核心概念 Flink 的核心概念主要有四个：阅读全文

posted @ 2022-08-31 23:03 大码王阅读(692) 评论(0) 推荐(0) 编辑

Spark面试题

摘要：一、Spark 基础篇 1、Spark 是什么？ Spark 是一个通用分布式内存计算引擎。2009 年在加州大学伯克利分校 AMP 实验室诞生，2014 年 2 月，Spark 成为 Apache 的顶级项目。Logo 标志如下： 2、Spark 有哪些特点？ Spark 使用 Scala 语言进阅读全文

posted @ 2022-08-31 23:02 大码王阅读(194) 评论(0) 推荐(0) 编辑

ClickHouse高频面试题

摘要： 1、简单介绍一下ClickHouse ClickHouse是一个用于联机分析(OLAP)的列式数据库管理系统(DBMS)。主要用于WEB流量分析。ClickHouse的全称是Click Stream,Data WareHouse，简称ClickHouse。 ClickHouse非常适用于商业智能领域阅读全文

posted @ 2022-08-31 23:01 大码王阅读(3135) 评论(0) 推荐(0) 编辑

Kafka面试题

摘要： 1、什么是 kafka ？ Kafka 起初是由 Linkedin 公司采用 Scala 语言开发的一个多分区、多副本且基于ZooKeeper协调的分布式消息系统，现己被捐献给 Apache 基金会。目前 Kafka 已经定位为一个分布式流式处理平台，它以高吞吐、可持久化、可水平扩展、支持流数据处阅读全文

posted @ 2022-08-31 22:56 大码王阅读(191) 评论(0) 推荐(0) 编辑

Python及PyCharm的环境搭建（PyCharm专业版破解与安装）

摘要： Python及PyCharm的环境搭建一、安装Python解释器官网下载地址：https://www.python.org/，以Windows为例。 1.点击Downloads—>All releases >点击Python3.9.0 2.下载完成后，双击python-3.9.0-amd64.e 阅读全文

posted @ 2022-08-31 10:38 大码王阅读(682) 评论(0) 推荐(0) 编辑

公告

青青陵上柏，磊磊涧o0w

运行时长：2258天1小时2分43秒

您的浏览器不兼容canvas

昵称：大码王
园龄： 5年8个月
粉丝： 233
关注： 30

+加关注

2025年3月

日

一

二

三

四

五

六

随笔分类 (719)

clickhouse(4)

flink源码分析(2)

Groovy(1)

Java(34)

Linux(3)

office(10)

OpenStack入门(1)

Phoenix+hbase(11)

photoshop(10)

python之绘图(7)

python之爬虫(15)

python之入门到实战(26)

shell大全(1)

SparkCore(14)

sparkGraphx(2)

sparksql(8)

sparkstreaming(17)

spark源码分析(11)

博客园美化(6)

操作系统(1)

随笔档案 (693)

2024年5月(4)

2024年3月(3)

2023年9月(1)

2023年4月(2)

2023年3月(4)

2023年2月(1)

2022年12月(1)

2022年11月(1)

2022年9月(2)

2022年8月(17)

2022年7月(5)

2022年5月(3)

2022年4月(18)

2021年9月(1)

2021年6月(9)

2021年5月(19)

2021年2月(1)

2021年1月(17)

2020年12月(7)

2020年11月(19)

文章分类 (35)

airflow(4)

azkban(1)

canal(1)

Cassandra(1)

datax(1)

druid(1)

Elasticsearch(8)

java(11)

mongodb(2)

redis(3)

scala(2)

文章档案 (40)

2024年4月(2)

2023年5月(2)

2023年4月(1)

2023年1月(1)

2020年6月(9)

2020年5月(25)

公告

搜索

常用链接

最新随笔

积分与排名

随笔分类 (719)

随笔档案 (693)

文章分类 (35)

文章档案 (40)

阅读排行榜

评论排行榜

推荐排行榜

最新评论

喜欢请打赏