11 2024 档案
摘要:ETL数据采集 数据采集也叫数据集成 ,我们常说的爬虫也是数据采集的一种方式 。 常用的数据采集工具分为两大类:离线数据采集(批量数据采集),实时数据采集(增量数据采集),这次我们分别来学习一下这俩种采集方式的常用工具 离线数据采集 常用工具有Sqoop、DataX、Kettle 一、Sqoop介绍
阅读全文
摘要:HDFS 高可用集群的搭建 由于条件限制,电脑只够我开3台虚拟机,所以我们就用这3台虚拟机搭建一个HDFS的高可用。 在搭建之前我们先来理清一下3台虚拟机master,node1,node2分别会有哪些进程 在高可用集群中会有2个NameNode,一个是活跃的(ANN),一个是备用的(SNN),每一
阅读全文
摘要:HDFS的读写流程 写数据 1、宏观 1、客户端发起请求到NameNode,调用Hadoop中的一个类叫做DistributedFileSystem创建对象,再利用这个对象通过RPC通信协议调用NameNode去创建一个没有blocks关联的新文件。在创建之前NameNode会做各种校验:比如该文件
阅读全文
摘要:Hadoop安装部署 一、虚拟机配置 1、创建3台虚拟机:master、node1、node2 2、关闭防火墙 systemctl stop firewalld.service #停止firewall systemctl disable firewalld.service #禁止firewall开机
阅读全文