08 2023 档案

摘要:安装网址:https://archive.apache.org/dist/sqoop/1.4.6/ 下载的是 sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz 这个版本的安装包,下载很慢,等着吧。 安装步骤: 1. 上传并解压。首先将安装包上传到hadoop102 阅读全文
posted @ 2023-08-20 14:39 KongLong_cm 阅读(34) 评论(0) 推荐(0) 编辑
摘要:一、Hbase简介 1.1 定义 Apache HBase 是以 hdfs 为数据存储的,一种分布式、可扩展的 NoSQL 数据库。 1.2 HBase 数据模型 HBase 数据模型的关键在于稀疏、分布式、多维、排序的映射。其中映射 map 指代非关系型数据库的 key-Value 结构。 1.2 阅读全文
posted @ 2023-08-18 15:34 KongLong_cm 阅读(68) 评论(0) 推荐(0) 编辑
摘要:一、Flume概述 1.1 Flume定义 Flume 是 Cloudera 提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。Flume 基于流式架构,灵活简单。Flume最主要的作用就是,实时读取服务器本地磁盘的数据,将数据写入到HDFS。 1.2 Flume基础架构 1.2 阅读全文
posted @ 2023-08-16 22:25 KongLong_cm 阅读(18) 评论(0) 推荐(0) 编辑
摘要:一、数据定义语言(DDL)概述及建表基础 数据定义语言 (Data Definition Language, DDL),是SQL语言集中对数据库内部的对象结构进行创建,删除,修改等的操作语言,这些数据库对象包括database(schema)、table、view、index等。核心语法由CREAT 阅读全文
posted @ 2023-08-15 22:29 KongLong_cm 阅读(112) 评论(0) 推荐(0) 编辑
摘要:一、数据仓库基础理论 1.1 概念 数据仓库(Data Warehouse):简称数仓,是一个用于存储分析报告的数据系统。目的是构建面向分析的集成化数据环境,分析结果为企业提供决策支持。 联机事务处理OLTP:操作型处理,主要针对具体业务对少量记录进行查询修改,传统的关系型数据库(RDBMS)作为数 阅读全文
posted @ 2023-08-12 22:21 KongLong_cm 阅读(164) 评论(0) 推荐(0) 编辑
摘要:一、Zookeeper概述 Zookeeper 是一个开源的分布式的,为分布式框架提供协调服务的 Apache 项目。 1.1. zookeeper的特点 1.2 应用场景 提供的服务包括:统一命名服务、统一配置管理、统一集群管理、服务器节点动态上下线、软负载均衡等。 1.统一命名服务:在分布式环境 阅读全文
posted @ 2023-08-09 21:45 KongLong_cm 阅读(24) 评论(0) 推荐(0) 编辑
摘要:一、Kafka概述 1.1 定义 Kafka的定义:Kafka是一个分布式的基于发布/订阅模式的消息队列,主要应用于大数据实时处理领域。 1.2 消息队列 传统的消息队列的主要应用场景包括:缓存/消峰、解耦和异步通信。 消息队列的两种模式 点对点模式 消息/订阅模式 二、Kafka入门 2.1 Ka 阅读全文
posted @ 2023-08-09 16:41 KongLong_cm 阅读(355) 评论(0) 推荐(0) 编辑
摘要:一、概述 ApacheFlink是一个框架和分布式处理引擎,用于对无界和有界数据流进行状态计算。 1.1 快速上手 1.哈哈先从Idea上手,先去Idea中创建一个maven项目,添加maven依赖如下: <dependencies> <!-- 引入 Flink 相关依赖--> <dependenc 阅读全文
posted @ 2023-08-07 07:52 KongLong_cm 阅读(73) 评论(0) 推荐(0) 编辑
摘要:一、SparkSql概述 SparkSql是Spark的一个模块,用于处理海量结构化数据(注意是只能处理结构化数据)。 1.1 SparkSql和Hive的异同 1.2 SparkSql的数据抽象 1.3 SparkSession对象 SparkSession对象可以用于SparkSql编程作为入口 阅读全文
posted @ 2023-08-04 21:59 KongLong_cm 阅读(71) 评论(0) 推荐(0) 编辑
摘要:一、RDD 详解 RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象,代表一个不可变、可分区、里面的元素可并行计算的集合。 1.1 RDD的五大特性 1.RDD是有分区的; 2.RDD的方法会作用在其所有分区上; 3.RDD之间可 阅读全文
posted @ 2023-08-03 07:47 KongLong_cm 阅读(12) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示