随笔分类 -  Apache Hadoop

摘要:配置文件记录 标签(空格分隔): 配置 hs2: <?xml version="1.0" encoding="UTF-8" standalone="no"?> <?xml-stylesheet type="text/xsl" href="configuration.xsl"?><!-- Licens 阅读全文
posted @ 2020-12-25 16:00 Zeus~ 阅读(181) 评论(0) 推荐(0) 编辑
摘要:HDFS配额总结 标签(空格分隔): Apache Hadoop HDFS允许管理员给私人目录设置其下面文件夹和文件的总数量配额,或空间使用总量配额。所以HDFS配额的对象是目录,而非用户。如果需要实现用户级别的配额,则需要采用第三方系统进行逻辑管理并映射到文件夹配额。 在往有配额的目录中写数据时, 阅读全文
posted @ 2020-03-18 22:14 Zeus~ 阅读(1162) 评论(0) 推荐(0) 编辑
摘要:HDFS balancer 标签(空格分隔): Hadoop #Balancer 必要性 HDFS节点间的数据不平衡,尤其在新增和下架节点、或者人为干预副本数量的时候,多的达到80-90%,少的不到50%。出现这种状况,我们一般采用HDFS自带的balancer工具来解决,保证每个节点的数据分布均衡 阅读全文
posted @ 2019-11-26 23:16 Zeus~ 阅读(1051) 评论(0) 推荐(0) 编辑
摘要:HDFS CheckPoint && SavePoint 标签(空格分隔): Hadoop HDFS CheckPoint HDFS 将文件系统的元数据信息存放在 fsimage 和一系列的 edits 文件中。 在启动 HDFS 集群时,系统会先加载 fsimage,然后逐个执行所有Edits文件 阅读全文
posted @ 2019-11-25 23:46 Zeus~ 阅读(725) 评论(0) 推荐(0) 编辑
摘要:HDFS 特殊权限位 标签(空格分隔): Hadoop 之前对HDFS更或者说是对Linux中文件的权限没有进行一个完整的学习,只是知道有所有者、所属组和其它权限,具体到某个人的权限有读(r)、写(w)和可执行(x)。 HDFS基于Linux的POSIX model HDFS的权限虽然是基于Linu 阅读全文
posted @ 2019-10-31 16:12 Zeus~ 阅读(2032) 评论(0) 推荐(0) 编辑
摘要:Hadoop元数据备份与恢复方案 标签(空格分隔): Hadoop Namenode 备份策略: 周期性备份namenode、standby namenode的dfs.namenode.name.dir 因为主从切换可能导致edits log分散在两台机器上,需要两台机器共同提供完整的edits l 阅读全文
posted @ 2019-10-22 11:03 Zeus~ 阅读(2624) 评论(0) 推荐(0) 编辑
摘要:HDFS读写数据流程 标签(空格分隔): Apache Hadoop HDFS是hadoop重要的组件之一,对其进行数据的读写是很常见的操作,然而真的了解其读写过程吗? 前言 HDFS – Hadoop Distributed File System,是hadoop的存储层,它参照google的GF 阅读全文
posted @ 2019-06-04 20:35 Zeus~ 阅读(2221) 评论(0) 推荐(0) 编辑
摘要:hadoop作业调优参数整理及原理 标签(空格分隔): hadoop 问题假设: 前提:已经对mapreduce处理框架模型有所了解 1.map会将已经产生的部分结果先写入到该buffer中.buffer大小可以通过那个参数来设置? 2.如何降低map的split的次数? 3.map中的数据什么情况 阅读全文
posted @ 2019-05-17 16:18 Zeus~ 阅读(745) 评论(0) 推荐(0) 编辑
摘要:hadoop HA+Federation(高可用联邦)搭建配置(二) 标签(空格分隔): hadoop core site.xml mountTable.xml hdfs site.xml Yarn site.xml mapred site.xml hdfs site.xml namespace1 阅读全文
posted @ 2019-05-16 19:15 Zeus~ 阅读(1529) 评论(0) 推荐(0) 编辑
摘要:hadoop HA+Federation(高可用联邦)搭建配置(一) 标签(空格分隔): 未分类 介绍 hadoop 集群一共有4种部署模式,详见《hadoop 生态圈介绍》。 HA联邦模式解决了单纯HA模式的性能瓶颈(主要指Namenode、ResourceManager),将整个HA集群划分为两 阅读全文
posted @ 2019-05-16 16:22 Zeus~ 阅读(1414) 评论(0) 推荐(0) 编辑
摘要:Windows 10 x64 下编译 Hadoop 源码 环境准备 Hadoop并没有提供官方的 Windows 10 下的安装包,所以需要自己手动来编译,官方文档中 BUILDING.txt 文件中说明了编译源码需要的软件环境: 1. 具体如下: [x] Hadoop源码 [x] Windows 阅读全文
posted @ 2019-04-24 16:58 Zeus~ 阅读(3245) 评论(0) 推荐(0) 编辑
摘要:Hadoop 生产配置文件V2 生产环境的配置文件调优 !!! Apache Hadoop 2.7.3 && NN HA && RM HA且仅针对于HDFS && Yarn 本身配置文件,不包括Gc 等其他单独角色调优 ,可供与参考或者直接使用。当然并不一定是最优化。 Core site.xml h 阅读全文
posted @ 2019-04-03 17:10 Zeus~ 阅读(446) 评论(0) 推荐(0) 编辑
摘要:Hadoop 2.7.3 编译 1.需要环境梳理 BUILDING JDK1.7+ maven 3.0 or later findbugs 1.3.9 protocolBuffer 2.5.0 cmake 2.6 zlib devel openssl devel ... 2.安装JDK JDK 下载 阅读全文
posted @ 2019-04-02 16:08 Zeus~ 阅读(452) 评论(0) 推荐(0) 编辑
摘要:bin 是二进制文件的意思,sbin....据说是superbin(管理员的bin) HDFS命令 某个文件的blocks信息 hadoop fsck /user/xx files blocks locations 改变一个文件或者目录的副本因子 hadoop fs setrep R 3 /user 阅读全文
posted @ 2019-03-06 10:49 Zeus~ 阅读(1148) 评论(0) 推荐(0) 编辑
摘要:如果是为了编译hadoop2.8.0源码,必须使用2.5.0版本的protobuf,安装方法同下 1. 下载需要的安装包:https://github.com/google/protobuf/releases protoc-3.1.0-win32.zip(protoc-2.5.0-win32.zip 阅读全文
posted @ 2018-12-10 11:23 Zeus~ 阅读(15233) 评论(0) 推荐(3) 编辑
摘要:1.总结 "Slow ReadProcessor" 和"Slow BlockReceiver"往往是因为集群负载比较高或者某些节点不健康导致的,本文主要是帮助你确认是因为集群负载高导致的还是因为某些节点的硬件问题。 2.症状 1.作业比以前运行的时间变长 2.Job的日志中有以下WARN的信息 3. 阅读全文
posted @ 2018-12-03 10:13 Zeus~ 阅读(4185) 评论(0) 推荐(0) 编辑
摘要:类型一: 当你从异常信息中看到JournalNode not formatted,如果在异常中看到三个节点都提示需要格式化JournalNode。 如果你是新建集群,你可以重新格式化NameNode,同时你会发现,JournalNode的目录被格式化… 类型二: 如果只是其中一个JournalNod 阅读全文
posted @ 2018-09-29 14:15 Zeus~ 阅读(695) 评论(0) 推荐(0) 编辑
摘要:hive-env.sh 添加如下,其中踩坑踩了不少。 if [ "$SERVICE" = "metastore" ]; then if [ -z "$DEBUG" ]; then export HIVE_METASTORE_HADOOP_OPTS=" -XX:+PrintCommandLineFla 阅读全文
posted @ 2018-09-12 21:58 Zeus~ 阅读(1319) 评论(0) 推荐(0) 编辑
摘要:# hiveserver2 && metastore 配置 标签(空格分隔): Hive 基本配置: ```<?xml version="1.0" encoding="UTF-8" standalone="no"?><?xml-stylesheet type="text/xsl" href="con 阅读全文
posted @ 2018-09-12 21:56 Zeus~ 阅读(2986) 评论(0) 推荐(0) 编辑
摘要:目前网上能找到的做HA的教程基本都无法真正做到多机高可用,包括官方文档,经过很久的折腾,终于做到了多机高可用,希望其它人不再被坑。 集群模式安装 前提条件: 机器已经安装好Java环境 jobManager到taskManager的机器做ssh免密登录(非必须) 以下操作都是直接使用的机器名,并保证 阅读全文
posted @ 2018-09-07 13:42 Zeus~ 阅读(841) 评论(0) 推荐(0) 编辑