摘要:
ETL数据采集 数据采集也叫数据集成 ,我们常说的爬虫也是数据采集的一种方式 。 常用的数据采集工具分为两大类:离线数据采集(批量数据采集),实时数据采集(增量数据采集),这次我们分别来学习一下这俩种采集方式的常用工具 离线数据采集 常用工具有Sqoop、DataX、Kettle 一、Sqoop介绍 阅读全文
摘要:
HDFS 高可用集群的搭建 由于条件限制,电脑只够我开3台虚拟机,所以我们就用这3台虚拟机搭建一个HDFS的高可用。 在搭建之前我们先来理清一下3台虚拟机master,node1,node2分别会有哪些进程 在高可用集群中会有2个NameNode,一个是活跃的(ANN),一个是备用的(SNN),每一 阅读全文
摘要:
HDFS的读写流程 写数据 1、宏观 1、客户端发起请求到NameNode,调用Hadoop中的一个类叫做DistributedFileSystem创建对象,再利用这个对象通过RPC通信协议调用NameNode去创建一个没有blocks关联的新文件。在创建之前NameNode会做各种校验:比如该文件 阅读全文
摘要:
Hadoop安装部署 一、虚拟机配置 1、创建3台虚拟机:master、node1、node2 2、关闭防火墙 systemctl stop firewalld.service #停止firewall systemctl disable firewalld.service #禁止firewall开机 阅读全文
摘要:
Redis安装部署与学习 一、简介 Redis(Remote Dictionary Server)是一个开源的内存数据库,遵守 BSD 协议,它提供了一个高性能的键值(key-value)存储系统,常用于缓存、消息队列、会话存储等应用场景。也就是说redis数据库与我们之前学的MySQL,Click 阅读全文
摘要:
ClickHouse 安装 一、了解ClickHouse ClickHouse是一个关系型数据库,说到关系型数据库,我们之前也学习到一个数据库Mysql,但是两者之间是有着很大区别的。MySQL数据库一般存储较少的数据(100万以内),而今天学习的ClickHouse存储的数据就相当之大,可以存储亿 阅读全文
摘要:
Maven 安装与配置 今天我们来学习一下Maven,Maven就相当于一个管理的工具,原理就是使用一个插件,这个插件由多个jar包构成。 在一个公司的项目开发过程中,一个大的项目通常被分为好几个小的模块,由不同的人去完成,但是不同的人在开发的过程中,使用的组件,jar包难免会有不同,所以在整合的时 阅读全文
摘要:
java 16 1、IO流 按照流向划分: 输入流:外部数据 -> java程序 输出流:java程序 -> 外部数据 按照数据类型划分【根据使用记事本打开是否能够看懂来决定】: 字节流【万能流】: 字节输出流: OutputStream(抽象类) - FileOutputStream(实现子类) 阅读全文
摘要:
java 15 1、Collections Collections:是java针对集合操作专门提供的一个工具类 静态方法 public static <T> void sort(List<T> list) public static <T> int binarySearch(List<?> list 阅读全文
摘要:
day 14 1、List集合练习 1、获取10个1-20之间的随机数,要求不能重复 public class ListTest1 { public static void main(String[] args) { Random random = new Random(); // int numb 阅读全文