Hadoop - 随笔分类 - 猫不夜行

阿里云服务器挖矿脚本bioset攻击解决

摘要：1.问题出现一大早刚起床，阿里云就给我发了一条短信，提醒我服务器出现紧急安全事件：挖矿程序阿里云“贴心”地提供了解决方法，不过需要购买企业版的安全服务，本着能自己动手就不花钱原则自己搞了起来于是赶紧上网查资料解决，相似的问题好多，都是被这些脚本变成了挖矿的“肉鸡” 2.问题排查 1）首先top 阅读全文

posted @ 2019-09-09 10:32 猫不夜行阅读(5580) 评论(0) 推荐(0)

NameNode格式化后HBase创建新表提示旧表已存在：table already exists

摘要：1.问题出现：在格式化NameNode后，集群上安装的OpenTSDB的表（存在hbase中）都没有了，重新运行OpenTSDB预创建表步骤报错显示table already exists 2.原因： hadoop重新格式化后，hdfs上没有了数据，在hbase中新建表却提示Table alrea 阅读全文

posted @ 2019-09-02 21:56 猫不夜行阅读(1506) 评论(0) 推荐(0)

多次NameNode执行format后DataNode启动不了解决方案

摘要：1.问题执行start-dfs.sh后在进程中查看jps，发现NameNode启动，但DataNode没有 2.原因在失败的.log文件中看到datanode的clusterID 和 namenode的clusterID 不一致原因可能是多次Hadoop namenode -format导致c 阅读全文

posted @ 2019-09-02 18:23 猫不夜行阅读(917) 评论(0) 推荐(0)

Zookeeper群起脚本启动失败及查看状态出现：Error contacting service. It is probably not running

摘要：1.问题：群起脚本启动后查看jps没有出现：QuorumPeerMain Zookeeper正常启动但是群起脚本查状态出现：Error contacting service. It is probably not running错误 2.原因：脚本没有加上source /etc/profile; 阅读全文

posted @ 2019-09-02 12:30 猫不夜行阅读(1395) 评论(0) 推荐(0)

大数据平台CentOS7+CDH5.12.1集群搭建

摘要：1.CM（Cloudera Manager）介绍 1.1 简介 Cloudera Manager是一个拥有集群自动化安装、中心化管理、集群监控、报警功能的一个工具，使得安装集群从几天的时间缩短在几个小时内，运维人员从数十人降低到几人以内，极大的提高集群管理的效率。对比Apache / CDH / 阅读全文

posted @ 2019-08-16 21:29 猫不夜行阅读(2894) 评论(0) 推荐(1)

CentOS7搭建NTP服务器及客户端同步时间

摘要：一、服务器配置 1、查看服务器、客户端操作系统版本 2、查看服务器是否安装ntp，系统默认安装ntpdate； 3、安装ntp ntpdate，其中ntpdate默认安装，可以只安装ntp； 4、查看是否已安装完成，与第2步对比 5、查看ntp服务器状态，两条命令效果一样或 6、修改配置文件，使该阅读全文

posted @ 2019-08-15 11:55 猫不夜行阅读(11009) 评论(0) 推荐(0)

CentOS7使用集群同步脚本对配置文件同步分发

摘要：1.介绍使用集群同步脚本对配置文件同步分发 2.操作 1）在/root目录下创建bin目录，并在bin目录下创建文件xsync，文件内容如下：在该文件中编写如下代码（其中第5步需要按自己集群情况配置分发范围） 2）修改脚本 xsync 具有执行权限 3.使用示例 1）将hadoop101中的JD 阅读全文

posted @ 2019-08-14 11:00 猫不夜行阅读(1816) 评论(0) 推荐(0)

HDFS-HA高可用工作机制

摘要：1.HDFS-HA概述 1）所谓HA（high available），即高可用（7*24小时不中断服务）。 2）实现高可用最关键的策略是消除单点故障。HA严格来说应该分成各个组件的HA机制：HDFS的HA和YARN的HA。 3）Hadoop2.0之前，在HDFS集群中NameNode存在单点故障（S 阅读全文

posted @ 2019-07-24 13:13 猫不夜行阅读(534) 评论(0) 推荐(0)

HDFS中DataNode工作机制

摘要：1.DataNode工作机制 1）一个数据块在datanode上以文件形式存储在磁盘上，包括两个文件，一个是数据本身，一个是元数据（包括数据块的长度，块数据的校验和，以及时间戳）。 2）DataNode启动后向namenode注册，通过后，周期性（1小时）的向namenode上报所有的块信息。 3）阅读全文

posted @ 2019-07-24 12:16 猫不夜行阅读(1597) 评论(0) 推荐(0)

HDFS启动过程概述及集群安全模式操作

摘要：1.启动过程概述 Namenode启动时，首先将映像文件（fsimage）载入内存，并执行编辑日志（edits）中的各项操作。一旦在内存中成功建立文件系统元数据的映像，则创建一个新的fsimage文件和一个空的编辑日志。此时，namenode开始监听datanode请求。但是此刻，namenode运阅读全文

posted @ 2019-07-24 11:47 猫不夜行阅读(542) 评论(0) 推荐(0)

HDFS中NameNode发生故障没有备份从SecondNameNode恢复

摘要：1.Secondary NameNode目录结构 Secondary NameNode用来监控HDFS状态的辅助后台程序，每隔一段时间获取HDFS元数据的快照。在/opt/module/hadoop-2.7.2/data/tmp/dfs/namesecondary/current这个目录中查看Se 阅读全文

posted @ 2019-07-24 11:44 猫不夜行阅读(875) 评论(0) 推荐(0)

HDFS镜像文件fsimage和编辑日志文件edits

摘要：镜像文件和编辑日志文件 1）概念 namenode被格式化之后，将在/opt/module/hadoop-2.7.2/data/tmp/dfs/name/current目录中产生如下文件（1）Fsimage文件：HDFS文件系统元数据的一个永久性的检查点，其中包含HDFS文件系统的所有目录和文件i 阅读全文

posted @ 2019-07-19 19:51 猫不夜行阅读(1773) 评论(0) 推荐(0)

HDFS中NameNode和Secondary NameNode工作机制

摘要：NameNode工作机制 0）启动概述 Namenode启动时，首先将映像文件（fsimage）载入内存，并执行编辑日志（edits）中的各项操作。一旦在内存中成功建立文件系统元数据的映像，则创建一个新的fsimage文件和一个空的编辑日志。此时，namenode开始监听datanode请求。但是此阅读全文

posted @ 2019-07-19 17:35 猫不夜行阅读(1862) 评论(0) 推荐(0)

HDFS数据流——读数据流程

摘要：HDFS读数据流程假设客户端请求下载文件/user/atguigu/ss.avi，HDFS读数据流程如下： 1）客户端向namenode请求下载文件，namenode通过查询元数据，找到文件所有文件块及所在的datanode地址。 2）挑选一台datanode（就近原则，然后随机）服务器，请求读取阅读全文

posted @ 2019-07-19 16:59 猫不夜行阅读(313) 评论(0) 推荐(0)

HDFS网络拓扑概念及机架感知（副本节点选择）

摘要：网络拓扑概念在本地网络中，两个节点被称为“彼此近邻”是什么意思？在海量数据处理中，其主要限制因素是节点之间数据的传输速率——带宽很稀缺。这里将两个节点间的带宽作为距离的衡量标准。节点距离：两个节点到达最近的共同祖先（如路由器）的距离总和。例如，假设有数据中心d1机架r1中的节点n1。该节点可以阅读全文

posted @ 2019-07-19 16:49 猫不夜行阅读(855) 评论(0) 推荐(0)

HDFS数据流——写数据流程

摘要：剖析HDFS文件写入假设文件ss.avi共200m，其写入HDFS指定路径/user/atguigu/ss.avi流程如下： 1）客户端向namenode请求上传文件到指定路径，namenode通过元数据（编辑日志edits和镜像文件fsimage）检查目标文件是否已存在，父目录是否存在。（先执行阅读全文

posted @ 2019-07-19 16:35 猫不夜行阅读(538) 评论(0) 推荐(0)

HDFS基本概念

摘要：概念 HDFS，它是一个文件系统，用于存储文件，通过目录树来定位文件；其次，它是分布式的，由很多服务器联合起来实现其功能，集群中的服务器有各自的角色。注意：HDFS的设计适合一次写入，多次读出的场景，且不支持文件的修改。适合用来做数据分析，并不适合用来做网盘应用。组成 1）HDFS集群包括，Na 阅读全文

posted @ 2019-07-19 16:18 猫不夜行阅读(394) 评论(0) 推荐(0)

Hadoop运行模式：本地模式、伪分布模式、完全分布模式

摘要：1、本地模式：默认模式 - 不对配置文件进行修改。 - 使用本地文件系统，而不是分布式文件系统。 - Hadoop不会启动NameNode、DataNode、ResourceManager、NodeManager等守护进程，Map()和Reduce()任务作为同一个进程的不同部分来执行的。 - 用于阅读全文

posted @ 2019-07-19 13:44 猫不夜行阅读(2301) 评论(1) 推荐(0)

随笔分类 - Hadoop

公告