随笔分类 -  Hadoop

摘要:【一些概念】 本地化(Localization) 将资源下载到本地的过程,这样container运行时可以从本地加载而不是从访问远端的文件。 资源(Resource) 资源表示运行container所需要的一个文件或library,客户端在提交任务时需要指定所依赖的资源。 对于每个资源,可以指定如下 阅读全文
posted @ 2025-04-28 10:40 大数据从业者FelixZh 阅读(11) 评论(0) 推荐(0)
摘要:一. 前言在YARN中, 分布式缓存是一种分布式文件分发与缓存机制,主要作用是将用户应用程序执行时所需的外部文件资源自动透明地下载并缓存到各个节点上, 从而省去了用户手动部署这些文件的麻烦。 二. 工作流程 YARN分布式缓存工作流程具体如下:步骤1 客户端将应用程序所需的文件资源(外部字典、 JA 阅读全文
posted @ 2025-04-28 10:30 大数据从业者FelixZh 阅读(36) 评论(0) 推荐(0)
摘要:Yarn作为一款优秀的开源集群管理工具,可以用它来运行Hadoop,Spark,Flink等大数据处理任务。所有的分布式计算框架,都是主从模式,ResourceManager作为集群的管理员,是任务提交的入口。一般企业的大数据处理平台会在Yarn的基础中做进一步的封装,以web应用的形式提供更高级的 阅读全文
posted @ 2025-04-27 11:37 大数据从业者FelixZh 阅读(78) 评论(0) 推荐(0)
摘要:对于很多在公司维护开源项目的工程师来说,成为 Apache 项目的 committer 应该是很多人的一个小梦想,那么怎么才能成为一位 committer,对于一些比较成熟的项目,现在想成为 committer 是有一定的难度,但也不是不可能。 How can I become an Apache 阅读全文
posted @ 2021-09-06 16:39 大数据从业者FelixZh 阅读(723) 评论(0) 推荐(0)
摘要:错误描述: [root@nna hadoop-3.2.2]# start-dfs.sh Starting namenodes on [nna nns] ERROR: Attempting to operate on hdfs namenode as root ERROR: but there is 阅读全文
posted @ 2021-03-05 14:18 大数据从业者FelixZh 阅读(940) 评论(0) 推荐(0)
摘要:https://stackoverflow.com/questions/35652665/java-io-ioexception-could-not-locate-executable-null-bin-winutils-exe-in-the-ha 93 29 I'm not able to run 阅读全文
posted @ 2020-11-23 13:55 大数据从业者FelixZh 阅读(518) 评论(0) 推荐(0)
摘要:目前市面上流行的三大开源数据湖方案分别为:delta、Apache Iceberg和Apache Hudi。 其中,由于Apache Spark在商业化上取得巨大成功,所以由其背后商业公司Databricks推出的delta也显得格外亮眼。 Apache Hudi是由Uber的工程师为满足其内部数据 阅读全文
posted @ 2020-06-05 14:26 大数据从业者FelixZh 阅读(7532) 评论(0) 推荐(0)
摘要:1 概述 解决hadoop启动hdfs时,datanode无法启动的问题。错误为: 2 问题描述 执行start-dfs.sh后,根据打印日志,可以看到分别执行了NameNode、DataNode的操作。 但是执行jps查看启动结果时,返现DataNode并没有启动。 3 查找问题 很是费解,刚刚还 阅读全文
posted @ 2019-12-19 19:58 大数据从业者FelixZh 阅读(1774) 评论(1) 推荐(0)
摘要:Working on hadoop, especially on test clusters, I have managed to break my HDFS layer and sometimes with no possible redemption, or at least none that 阅读全文
posted @ 2019-04-30 16:54 大数据从业者FelixZh 阅读(206) 评论(0) 推荐(0)
摘要:1 问题描述 HDFS在机器断电或意外崩溃的情况下,有可能出现正在写的数据(例如保存在DataNode内存的数据等)丢失的问题。再次重启HDFS后,发现hdfs无法启动,查看日志后发现,一直处于安全模式。 2 原因分析 出现前面提到的问题主要原因是客户端写入的数据没有及时保存到磁盘中,从而导致数据丢 阅读全文
posted @ 2019-04-26 09:23 大数据从业者FelixZh 阅读(1562) 评论(0) 推荐(0)
摘要:目前来看,导致hdfs一直处于safemode模式最直接的原因是已成功复制的块的比例没有达到默认值,块的损坏也会造成一直处于安全模式。 1)文件系统中有损坏的文件,使用fsck命令来查看 以上是查看hdfs的根目录下的所有文件健康状况,如果有损坏的文件,就会提示: 接下来就是排错,查看究竟是哪个目录 阅读全文
posted @ 2019-04-11 16:43 大数据从业者FelixZh 阅读(1907) 评论(0) 推荐(0)
摘要:HDP 2.6 requires libtirpc-devel 个问题,截止 Mustafa Kemal MAYUK 2017年06月30日 06:30 hadoopPowerSystems Hello, I am trying to install HDP 2.6 on RHEL 7.2 ppc6 阅读全文
posted @ 2019-04-02 19:09 大数据从业者FelixZh 阅读(1195) 评论(0) 推荐(0)
摘要:方法 在系统的环境变量或java JVM变量添加HADOOP_USER_NAME(具体值视情况而定)。 比如:idea里面可以如下添加HADOOP_USER_NAME=hdfs 原理:直接看源码 /hadoop-3.0.3-src/hadoop-common-project/hadoop-commo 阅读全文
posted @ 2019-01-16 14:11 大数据从业者FelixZh 阅读(2791) 评论(0) 推荐(0)
摘要:通过FileSystem.get(conf)初始化的时候,要通过静态加载来实现,其加载类的方法代码如下: onf.getClass需要读取hadoop-common-x.jar下面的core-default.xml,但是这个xml里面没有fs.hdfs.impl的配置信息,所以需要将这个类给配置上去 阅读全文
posted @ 2019-01-14 17:25 大数据从业者FelixZh 阅读(4114) 评论(0) 推荐(0)
摘要:方式1 原因:namenode元数据被破坏,需要修复解决:恢复一下namenode 一路选择Y,一般就OK了 方式2 Need to copy the edits file to the journal node (I have 3 journal node s101 s102 s103) http 阅读全文
posted @ 2018-10-31 09:11 大数据从业者FelixZh 阅读(4103) 评论(0) 推荐(0)
摘要:Lambda架构由Storm的作者Nathan Marz提出。旨在设计出一个能满足。实时大数据系统关键特性的架构,具有高容错、低延时和可扩展等特。 Lambda架构整合离线计算和实时计算,融合不可变(Immutability,读写分离和隔离 一系列构原则,可集成Hadoop,Kafka,Storm, 阅读全文
posted @ 2018-10-29 09:30 大数据从业者FelixZh 阅读(6902) 评论(0) 推荐(0)
摘要:NameNode与Secondary NameNode 很多人都认为,Secondary NameNode是NameNode的备份,是为了防止NameNode的单点失败的,其实并不是在这样。文章Secondary Namenode - What it really do? (需FQ)写的很通俗易懂, 阅读全文
posted @ 2018-09-27 19:36 大数据从业者FelixZh 阅读(1951) 评论(0) 推荐(0)
摘要:原因: Ambari 每分钟会向datanode发送"ping"连接一下去确保datanode是正常工作的.否则它会触发alert。但是datanode并没有处理空内容的逻辑,所以直接异常了 解决办法: 这个可以忽略,或者使用 https://issues.apache.org/jira/brows 阅读全文
posted @ 2018-09-27 10:47 大数据从业者FelixZh 阅读(785) 评论(0) 推荐(0)
摘要:Namenode 开启HA之后,由于zookeeper异常,出现脑裂现象 执行 standby standby 两个互为HA的namenode节点均处于standby 状态,随后执行 强行手工将namenode1状态转换为active PS: serverID即namenodeID,可以访问http 阅读全文
posted @ 2018-09-19 19:56 大数据从业者FelixZh 阅读(784) 评论(0) 推荐(0)
摘要:找时间总结整理了下数据从Kafka到Hdfs的一些pipeline,如下 1> Kafka -> Flume –> Hadoop Hdfs 常用方案,基于配置,需要注意hdfs小文件性能等问题. GitHub地址: https://github.com/apache/flume 2> Kafka - 阅读全文
posted @ 2018-07-16 13:42 大数据从业者FelixZh 阅读(820) 评论(0) 推荐(0)

大数据从业者