摘要: DataX快速入门 DataX3.0快速入门 一、DataX3.0概览 DataX是阿里云DataWorks数据集成的开源版本,在阿里巴巴集团内部被广泛使用的离线数据同步工具/平台。解决了数据库之中的数据同步、迁移问题,把网状结构转为星型结构,主要用于数据库之间传送业务数据。 为了解决异构数据源同步问题,DataX将复 阅读全文
posted @ 2023-11-25 23:22 戴莫先生Study平台 阅读(426) 评论(0) 推荐(0)
摘要: Flume快速入门 Flume快速入门 一、简介 高可用、高可靠,分布式的海量日志采集、聚合和传输系统,基于流式架构,灵活简单。 event:事件 source:数据源 sink:目标 channel:数据管道 通过获取数据源转化为事件进入数据管道,在数据管道通过中流向目标对象(HDFS、HBase、MySQL等)进行 阅读全文
posted @ 2023-11-25 23:20 戴莫先生Study平台 阅读(135) 评论(0) 推荐(0)
摘要: HBase快速入门 HBase快速入门 一、基本概念 Apache HBase(Hadoop DataBase)是一个开源的、高可靠性、高性能、面向列(这里指列族,非列式存储)、可伸缩、实时读写的分 布式数据库,其设计思想来源于 Google 的 BigTable 论文。利用 Hadoop HDFS 作为其文件存储系统 阅读全文
posted @ 2023-11-20 16:19 戴莫先生Study平台 阅读(449) 评论(0) 推荐(0)
摘要: Spark Core快速入门 Spark-core快速入门 一、简介 Apache spark是专门为大规模数据处理而设计的快速通用的计算模型,是一种类似于Mapreduce通用并行计算框架,与mapreduce不同的是,spark中间输出数据可以缓存在内存中,不需要读取HDFS,减少磁盘数据交互,spark也被称为基于内存的分 阅读全文
posted @ 2023-11-20 10:29 戴莫先生Study平台 阅读(366) 评论(0) 推荐(0)
摘要: Spark SQL快速入门 Spark SQL快速入门 1、概述 spark SQL是Apache用于处理结构化数据的模块。其中包含SQL、DataFrame API、DataSet API,意味着开发人员可以在不同的API之间来回切换,从而使数据处理更加灵活。 Spark SQL(Spark on hive) 数据兼容方面S 阅读全文
posted @ 2023-11-20 10:27 戴莫先生Study平台 阅读(528) 评论(0) 推荐(1)
摘要: Spark Streaming快速入门 Spark Streaming快速入门 一、简介 Spark Streaming 是构建在 Spark Core 基础之上的流处理框架(但实际上是微批次处理框架),是 Spark 非常重要的组成部分。严格意义上来讲,Spark Streaming 是一个准实时,微批次的流处理框架。 特点:Easy 阅读全文
posted @ 2023-11-20 10:26 戴莫先生Study平台 阅读(179) 评论(0) 推荐(0)
摘要: Zookeeper快速入门 Zookeeper快速入门 核心:1、zookeeper自己如何选主的? ​ 2、zookeeper如何帮别人选主的? 1、集群与分布式 一、集群:将一个任务部署在多个服务器,每个服务器都能独立完成该任务。 二、分布式:将一个任务拆分成若干个子任务,由若干个服务器分别完成这些子任务,每个服务器只能完 阅读全文
posted @ 2023-11-05 21:55 戴莫先生Study平台 阅读(164) 评论(0) 推荐(0)
摘要: hive快速入门 hive快速入门 一、简介 hive是facebook,用于解决海量结构化数据的统计分析,现在属于apache软件基金会。hive是一个构建在hadoop之上的数据分析工具,hive没有存储数据的能力只有使用数据的能力,底层是由HDFS来提供数据存储,可以将结构化的数据映射为一张数据表,并且提供类似 阅读全文
posted @ 2023-11-05 21:52 戴莫先生Study平台 阅读(394) 评论(0) 推荐(0)
摘要: Linux系统快速入门(完整版) LINUX基础知识 I、Linux概述 linux是啥? 一套免费使用和自由传播的类Unix操作系统,是一个基于POSIX和Unix的多用户、多任务、支持多线程和多CPU的操作系统。它能运行主要的Unix工具软件、应用程序和网络协议。它支持32位和64位硬件。Linux继承了Unix以网络为核心的设 阅读全文
posted @ 2023-11-05 21:51 戴莫先生Study平台 阅读(362) 评论(0) 推荐(0)
摘要: Docker快速入门 docker快速入门 一、docker简介 Docker 是一个开源的应用容器引擎,让开发者可以打包他们的应用以及依赖包到一个可移植的镜像中,然后发布到任何流行的 Linux或Windows操作系统的机器上,也可以实现虚拟化。容器是完全使用沙箱机制,相互之间不会有任何接口。 Docker 是用 Go 阅读全文
posted @ 2023-10-20 19:31 戴莫先生Study平台 阅读(85) 评论(0) 推荐(0)