大数据-Hadoop - 随笔分类 - 业余砖家

Hadoop相关面试题

摘要：1.1、介绍Hadoop 广义上来说，Hadoop通常是指一个更广泛的概念——Hadoop生态圈。狭义上说，Hadoop指Apache这款开源框架，它的核心组件有： (1)、HDFS（分布式文件系统）：解决海量数据存储； (2)、YARN（作业调度和集群资源管理的框架）：解决资源任务调度； (3) 阅读全文

posted @ 2024-11-26 18:07 业余砖家阅读(30) 评论(0) 推荐(0) 编辑

hadoop~搭建HA集群之后不能自动切换namenode

摘要：在搭好HA集群之后，想测试一下集群的高可用性，于是先把active的namenode给停掉： hadoop-daemon.sh stop namenode 或者直接kill掉该节点namenode的对应进程也可。但是通过hdfs haadmin -getServiceState master1 查阅读全文

posted @ 2024-11-26 16:49 业余砖家阅读(76) 评论(0) 推荐(0) 编辑

Hadoop组件兼容性

摘要：（1）HBase和Hadoop、zookeeper、JDK兼容版本参考网址： https://hbase.apache.org/book.html 1）JDK和Hbase的兼容版本对于JDK，最好还是选择JDK1.8。 2）HBase和Hadoop的兼容版本 3）HBase和Zookeeper兼阅读全文

posted @ 2024-01-16 14:42 业余砖家阅读(276) 评论(0) 推荐(0) 编辑

Hadoop集群常用组件的命令

摘要：1. Hadoop (1).HDFS：启动HDFS：start-dfs.sh关闭HDFS：stop-dfs.sh格式化NameNode：hdfs namenode -format查看文件系统状态：hdfs dfsadmin -report创建目录：hdfs dfs -mkdir /path/to/d 阅读全文

posted @ 2024-01-16 09:40 业余砖家阅读(41) 评论(0) 推荐(0) 编辑

大数据生态组件WEB UI地址汇总

摘要：(1) Hadoop Web UI http://master-1:9870/dfshealth.html#tab-overview 旧版本的端口可能为：50070 http://master-1:50070/dfshealth.html#tab-overview 如果不知道端口，可以查看hdfs- 阅读全文

posted @ 2024-01-02 10:27 业余砖家阅读(139) 评论(0) 推荐(0) 编辑

大数据组件的历史版本下载地址

摘要：Hadoop官网历史版本：https://archive.apache.org/dist/hadoop/common/ Zookeeper官网历史版本：https://archive.apache.org/dist/zookeeper/ Hive官网历史版本：https://archive.apac 阅读全文

posted @ 2023-11-02 14:11 业余砖家阅读(335) 评论(0) 推荐(1) 编辑

Hadoop-大数据组件版本号查看

摘要：1．操作系统 cat /etc/redhat-release ; 2．JDK java -version 3．SCALA scala --version 4．MySQL mysql --version 5．Zookeeper ps -ef | grep -E “zookeeper-.*.jar” 6 阅读全文

posted @ 2023-10-26 10:05 业余砖家阅读(81) 评论(0) 推荐(0) 编辑

大数据技术之DataX

摘要：一、DataX简介 DataX 是阿里巴巴开源的一个异构数据源离线同步工具，致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能。二、DataX架构原理为了解决异构数据源同步问题，DataX将复杂的网阅读全文

posted @ 2023-10-19 17:21 业余砖家阅读(449) 评论(0) 推荐(0) 编辑

Hadoop-Operation category READ is not supported in state standby 故障解决

摘要：在查询hdfs时或者执行程序向hdfs写入数据时遇到报错：Operation category READ is not supported in state standby 意思是：该主机状态为待机,不支持操作类别READ. 你会发现最基本的hdfs命令都不能执行，例如：hadoop fs -ls 阅读全文

posted @ 2023-10-13 14:56 业余砖家阅读(3173) 评论(0) 推荐(0) 编辑

Hadoop的stop-all无法关闭集群原因及解决方案

摘要：问题现象：在服务器上长时间运行hadoop之后，如果运行stop-all.sh，会发现： [root@node1 sbin]# stop-all.shThis script is Deprecated. Instead use stop-dfs.sh and stop-yarn.shStopping 阅读全文

posted @ 2023-05-11 09:53 业余砖家阅读(741) 评论(0) 推荐(0) 编辑

Apache Hudi 设计与架构解读

摘要：1. 简介 Apache Hudi(简称：Hudi)允许您在现有的hadoop兼容存储之上存储大量数据，同时提供两种原语，使得除了经典的批处理之外，还可以在数据湖上进行流处理。这两种原语分别是: 1）Update/Delete记录：Hudi使用细粒度的文件/记录级别索引来支持Update/Dele 阅读全文

posted @ 2023-02-09 23:44 业余砖家阅读(246) 评论(0) 推荐(0) 编辑

Hadoop相关面试题

摘要：1、简答说一下hadoop的map-reduce编程模型首先map task会从本地文件系统读取数据，转换成key-value形式的键值对集合使用的是hadoop内置的数据类型，比如longwritable、text等将键值对集合输入mapper进行业务处理过程，将其转换成需要的key-val 阅读全文

posted @ 2023-02-08 23:34 业余砖家阅读(119) 评论(0) 推荐(0) 编辑

Hadoop-基础知识面试题

摘要：1、Hadoop集群的最主要瓶颈磁盘IO 2、Hadoop三大组件 (1)、HDFS HDFS(Hadoop Distributed File System)是 Hadoop 项目的核心子项目，主要负责集群数据的存储与读取，HDFS 是一个主/从(Master/Slave) 体系结构的分布式文件系阅读全文

posted @ 2023-01-29 23:51 业余砖家阅读(458) 评论(0) 推荐(0) 编辑

业余砖家

没有比人更高的山，没有比脚更长的路。

随笔分类 - 大数据-Hadoop

公告

合集 (1)

随笔分类 (337)

随笔档案 (342)

文章分类 (91)

文章档案 (93)