随笔分类 -  大数据-Hadoop

摘要:1.1、介绍Hadoop 广义上来说,Hadoop通常是指一个更广泛的概念——Hadoop生态圈。 狭义上说,Hadoop指Apache这款开源框架,它的核心组件有: (1)、HDFS(分布式文件系统):解决海量数据存储; (2)、YARN(作业调度和集群资源管理的框架):解决资源任务调度; (3) 阅读全文
posted @ 2024-11-26 18:07 业余砖家 阅读(30) 评论(0) 推荐(0) 编辑
摘要:在搭好HA集群之后,想测试一下集群的高可用性,于是先把active的namenode给停掉: hadoop-daemon.sh stop namenode 或者直接kill掉该节点namenode的对应进程也可。 但是通过hdfs haadmin -getServiceState master1 查 阅读全文
posted @ 2024-11-26 16:49 业余砖家 阅读(76) 评论(0) 推荐(0) 编辑
摘要:(1)HBase和Hadoop、zookeeper、JDK兼容版本 参考网址: https://hbase.apache.org/book.html 1)JDK和Hbase的兼容版本 对于JDK,最好还是选择JDK1.8。 2)HBase和Hadoop的兼容版本 3)HBase和Zookeeper兼 阅读全文
posted @ 2024-01-16 14:42 业余砖家 阅读(276) 评论(0) 推荐(0) 编辑
摘要:1. Hadoop (1).HDFS:启动HDFS:start-dfs.sh关闭HDFS:stop-dfs.sh格式化NameNode:hdfs namenode -format查看文件系统状态:hdfs dfsadmin -report创建目录:hdfs dfs -mkdir /path/to/d 阅读全文
posted @ 2024-01-16 09:40 业余砖家 阅读(41) 评论(0) 推荐(0) 编辑
摘要:(1) Hadoop Web UI http://master-1:9870/dfshealth.html#tab-overview 旧版本的端口可能为:50070 http://master-1:50070/dfshealth.html#tab-overview 如果不知道端口,可以查看hdfs- 阅读全文
posted @ 2024-01-02 10:27 业余砖家 阅读(139) 评论(0) 推荐(0) 编辑
摘要:Hadoop官网历史版本:https://archive.apache.org/dist/hadoop/common/ Zookeeper官网历史版本:https://archive.apache.org/dist/zookeeper/ Hive官网历史版本:https://archive.apac 阅读全文
posted @ 2023-11-02 14:11 业余砖家 阅读(335) 评论(0) 推荐(1) 编辑
摘要:1.操作系统 cat /etc/redhat-release ; 2.JDK java -version 3.SCALA scala --version 4.MySQL mysql --version 5.Zookeeper ps -ef | grep -E “zookeeper-.*.jar” 6 阅读全文
posted @ 2023-10-26 10:05 业余砖家 阅读(81) 评论(0) 推荐(0) 编辑
摘要:一、DataX简介 DataX 是阿里巴巴开源的一个异构数据源离线同步工具,致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能。 二、DataX架构原理 为了解决异构数据源同步问题,DataX将复杂的网 阅读全文
posted @ 2023-10-19 17:21 业余砖家 阅读(449) 评论(0) 推荐(0) 编辑
摘要:在查询hdfs时或者执行程序向hdfs写入数据时遇到报错:Operation category READ is not supported in state standby 意思是:该主机状态为待机,不支持操作类别READ. 你会发现最基本的hdfs命令都不能执行,例如:hadoop fs -ls 阅读全文
posted @ 2023-10-13 14:56 业余砖家 阅读(3173) 评论(0) 推荐(0) 编辑
摘要:问题现象:在服务器上长时间运行hadoop之后,如果运行stop-all.sh,会发现: [root@node1 sbin]# stop-all.shThis script is Deprecated. Instead use stop-dfs.sh and stop-yarn.shStopping 阅读全文
posted @ 2023-05-11 09:53 业余砖家 阅读(741) 评论(0) 推荐(0) 编辑
摘要:1. 简介 Apache Hudi(简称:Hudi)允许您在现有的hadoop兼容存储之上存储大量数据,同时提供两种原语,使得除了经典的批处理之外,还可以在数据湖上进行流处理。 这两种原语分别是: 1)Update/Delete记录:Hudi使用细粒度的文件/记录级别索引来支持Update/Dele 阅读全文
posted @ 2023-02-09 23:44 业余砖家 阅读(246) 评论(0) 推荐(0) 编辑
摘要:1、简答说一下hadoop的map-reduce编程模型 首先map task会从本地文件系统读取数据,转换成key-value形式的键值对集合 使用的是hadoop内置的数据类型,比如longwritable、text等 将键值对集合输入mapper进行业务处理过程,将其转换成需要的key-val 阅读全文
posted @ 2023-02-08 23:34 业余砖家 阅读(119) 评论(0) 推荐(0) 编辑
摘要:1、Hadoop集群的最主要瓶颈 磁盘IO 2、Hadoop三大组件 (1)、HDFS HDFS(Hadoop Distributed File System)是 Hadoop 项目的核心子项目,主要负责集群数据的存储与读取,HDFS 是一个主/从(Master/Slave) 体系结构的分布式文件系 阅读全文
posted @ 2023-01-29 23:51 业余砖家 阅读(458) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示