随笔分类 -  Hadoop

摘要:1.问题出现 一大早刚起床,阿里云就给我发了一条短信,提醒我服务器出现紧急安全事件:挖矿程序 阿里云“贴心”地提供了解决方法,不过需要购买企业版的安全服务,本着能自己动手就不花钱原则自己搞了起来 于是赶紧上网查资料解决,相似的问题好多,都是被这些脚本变成了挖矿的“肉鸡” 2.问题排查 1)首先top 阅读全文
posted @ 2019-09-09 10:32 猫不夜行 阅读(5444) 评论(0) 推荐(0) 编辑
摘要:1.问题出现: 在格式化NameNode后,集群上安装的OpenTSDB的表(存在hbase中)都没有了,重新运行OpenTSDB预创建表步骤报错显示table already exists 2.原因: hadoop重新格式化后,hdfs上没有了数据,在hbase中新建表却提示Table alrea 阅读全文
posted @ 2019-09-02 21:56 猫不夜行 阅读(1443) 评论(0) 推荐(0) 编辑
摘要:1.问题 执行start-dfs.sh后在进程中查看jps,发现NameNode启动,但DataNode没有 2.原因 在失败的.log文件中看到datanode的clusterID 和 namenode的clusterID 不一致 原因可能是多次Hadoop namenode -format导致c 阅读全文
posted @ 2019-09-02 18:23 猫不夜行 阅读(865) 评论(0) 推荐(0) 编辑
摘要:1.问题: 群起脚本启动后查看jps没有出现:QuorumPeerMain Zookeeper正常启动但是群起脚本查状态出现:Error contacting service. It is probably not running错误 2.原因: 脚本没有加上source /etc/profile; 阅读全文
posted @ 2019-09-02 12:30 猫不夜行 阅读(1370) 评论(0) 推荐(0) 编辑
摘要:1.CM(Cloudera Manager)介绍 1.1 简介 Cloudera Manager是一个拥有集群自动化安装、中心化管理、集群监控、报警功能的一个工具,使得安装集群从几天的时间缩短在几个小时内,运维人员从数十人降低到几人以内,极大的提高集群管理的效率。 对比Apache / CDH / 阅读全文
posted @ 2019-08-16 21:29 猫不夜行 阅读(2835) 评论(0) 推荐(1) 编辑
摘要:一、服务器配置 1、查看服务器、客户端操作系统版本 2、查看服务器是否安装ntp,系统默认安装ntpdate; 3、安装ntp ntpdate,其中ntpdate默认安装,可以只安装ntp; 4、查看是否已安装完成,与第2步对比 5、查看ntp服务器状态,两条命令效果一样 或 6、修改配置文件,使该 阅读全文
posted @ 2019-08-15 11:55 猫不夜行 阅读(10562) 评论(0) 推荐(0) 编辑
摘要:1.介绍 使用集群同步脚本对配置文件同步分发 2.操作 1)在/root目录下创建bin目录,并在bin目录下创建文件xsync,文件内容如下: 在该文件中编写如下代码(其中第5步需要按自己集群情况配置分发范围) 2)修改脚本 xsync 具有执行权限 3.使用示例 1)将hadoop101中的JD 阅读全文
posted @ 2019-08-14 11:00 猫不夜行 阅读(1767) 评论(0) 推荐(0) 编辑
摘要:1.HDFS-HA概述 1)所谓HA(high available),即高可用(7*24小时不中断服务)。 2)实现高可用最关键的策略是消除单点故障。HA严格来说应该分成各个组件的HA机制:HDFS的HA和YARN的HA。 3)Hadoop2.0之前,在HDFS集群中NameNode存在单点故障(S 阅读全文
posted @ 2019-07-24 13:13 猫不夜行 阅读(471) 评论(0) 推荐(0) 编辑
摘要:1.DataNode工作机制 1)一个数据块在datanode上以文件形式存储在磁盘上,包括两个文件,一个是数据本身,一个是元数据(包括数据块的长度,块数据的校验和,以及时间戳)。 2)DataNode启动后向namenode注册,通过后,周期性(1小时)的向namenode上报所有的块信息。 3) 阅读全文
posted @ 2019-07-24 12:16 猫不夜行 阅读(1563) 评论(0) 推荐(0) 编辑
摘要:1.启动过程概述 Namenode启动时,首先将映像文件(fsimage)载入内存,并执行编辑日志(edits)中的各项操作。一旦在内存中成功建立文件系统元数据的映像,则创建一个新的fsimage文件和一个空的编辑日志。此时,namenode开始监听datanode请求。但是此刻,namenode运 阅读全文
posted @ 2019-07-24 11:47 猫不夜行 阅读(502) 评论(0) 推荐(0) 编辑
摘要:1.Secondary NameNode目录结构 Secondary NameNode用来监控HDFS状态的辅助后台程序,每隔一段时间获取HDFS元数据的快照。 在/opt/module/hadoop-2.7.2/data/tmp/dfs/namesecondary/current这个目录中查看Se 阅读全文
posted @ 2019-07-24 11:44 猫不夜行 阅读(810) 评论(0) 推荐(0) 编辑
摘要:镜像文件和编辑日志文件 1)概念 namenode被格式化之后,将在/opt/module/hadoop-2.7.2/data/tmp/dfs/name/current目录中产生如下文件 (1)Fsimage文件:HDFS文件系统元数据的一个永久性的检查点,其中包含HDFS文件系统的所有目录和文件i 阅读全文
posted @ 2019-07-19 19:51 猫不夜行 阅读(1712) 评论(0) 推荐(0) 编辑
摘要:NameNode工作机制 0)启动概述 Namenode启动时,首先将映像文件(fsimage)载入内存,并执行编辑日志(edits)中的各项操作。一旦在内存中成功建立文件系统元数据的映像,则创建一个新的fsimage文件和一个空的编辑日志。此时,namenode开始监听datanode请求。但是此 阅读全文
posted @ 2019-07-19 17:35 猫不夜行 阅读(1799) 评论(0) 推荐(0) 编辑
摘要:HDFS读数据流程 假设客户端请求下载文件/user/atguigu/ss.avi,HDFS读数据流程如下: 1)客户端向namenode请求下载文件,namenode通过查询元数据,找到文件所有文件块及所在的datanode地址。 2)挑选一台datanode(就近原则,然后随机)服务器,请求读取 阅读全文
posted @ 2019-07-19 16:59 猫不夜行 阅读(302) 评论(0) 推荐(0) 编辑
摘要:网络拓扑概念 在本地网络中,两个节点被称为“彼此近邻”是什么意思?在海量数据处理中,其主要限制因素是节点之间数据的传输速率——带宽很稀缺。这里将两个节点间的带宽作为距离的衡量标准。 节点距离:两个节点到达最近的共同祖先(如路由器)的距离总和。 例如,假设有数据中心d1机架r1中的节点n1。该节点可以 阅读全文
posted @ 2019-07-19 16:49 猫不夜行 阅读(808) 评论(0) 推荐(0) 编辑
摘要:剖析HDFS文件写入 假设文件ss.avi共200m,其写入HDFS指定路径/user/atguigu/ss.avi流程如下: 1)客户端向namenode请求上传文件到指定路径,namenode通过元数据(编辑日志edits和镜像文件fsimage)检查目标文件是否已存在,父目录是否存在。(先执行 阅读全文
posted @ 2019-07-19 16:35 猫不夜行 阅读(495) 评论(0) 推荐(0) 编辑
摘要:概念 HDFS,它是一个文件系统,用于存储文件,通过目录树来定位文件;其次,它是分布式的,由很多服务器联合起来实现其功能,集群中的服务器有各自的角色。 注意:HDFS的设计适合一次写入,多次读出的场景,且不支持文件的修改。适合用来做数据分析,并不适合用来做网盘应用。 组成 1)HDFS集群包括,Na 阅读全文
posted @ 2019-07-19 16:18 猫不夜行 阅读(383) 评论(0) 推荐(0) 编辑
摘要:1、本地模式:默认模式 - 不对配置文件进行修改。 - 使用本地文件系统,而不是分布式文件系统。 - Hadoop不会启动NameNode、DataNode、ResourceManager、NodeManager等守护进程,Map()和Reduce()任务作为同一个进程的不同部分来执行的。 - 用于 阅读全文
posted @ 2019-07-19 13:44 猫不夜行 阅读(2189) 评论(1) 推荐(0) 编辑

点击右上角即可分享
微信分享提示