摘要:
一:namenode出现missing blocks 日常巡检CDH集群和HDP集群发现有些namenode下有很多missing blocks ,hadoop数据存储单位为块。一块64M,这些Missing大多因为元数据丢失而毁坏,很难恢复。就行硬盘故障一样,需要fsck并且delete。 CDH 阅读全文
摘要:
网络文件共享服务相关概念 DAS(Direct Access Storage—直接连接存储)是指将存储设备通过SCSI接口或光纤通道直接连接到一台计算机上。 NAS(Network Attached Storage)—网络连接存储,即将存储设备通过标准的网络拓扑结构(例如以太网),连接到一群计算机上 阅读全文
摘要:
Kernel-based Virtual Machine的简称,是一个开源的系统虚拟化模块,自Linux 2.6.20之后集成在Linux的各个主要发行版本中。它使用Linux自身的调度器进行管理,所以相对于Xen,其核心源码很少。KVM的虚拟化需要硬件支持(如Intel VT技术或者AMD V技术 阅读全文
摘要:
HAProxy是一个使用C语言编写的自由及开放源代码软件,其提供高可用性、负载均衡,以及基于TCP和HTTP的应用程序代理。 HAProxy特别适用于那些负载特大的web站点,这些站点通常又需要会话保持或七层处理。HAProxy运行在当前的硬件上,完全可以支持数以万计的并发连接。并且它的运行模式使得 阅读全文
摘要:
ansible比较适合做“一次性”的工作,例如,系统部署、应用发布、打补丁等等,而且ansible一次性默认只能在5台主机上批量执行命令,规模再大点的就不太适用了,这时。候就轮到Puppet上场了。Puppet是由Ruby语言开发,执行高效,而且Puppet的foreman可以提供比较高大上的web 阅读全文
摘要:
Keepalived的作用是检测服务器 的状态,如果有一台web服务器宕机 ,或工作出现故障,Keepalived将检 测到,并将有故障的服务器从系统中 剔除,同时使用其他服务器代替该服 务器的工作,当服务器工作正常后 Keepalived自动将服务器加入到服务 器群中,这些工作全部自动完成,不 需 阅读全文
摘要:
LVS跟防火墙一样,都是集成于Linux内核的一种功能。LVS基于OSI四层网络协议,可以实现多种Load Blance负载均衡功能,将前端请求按照设定规则调度到后端服务器,LVS调度功能和性能都很强大,唯一美中不足的是没有High Availability和健康状态检查功能,需要其他软件辅助实现, 阅读全文
摘要:
实现7*24小时自动化运维的重要组成之一就是监控系统,一个好的监控系统可以时时帮我们监控着整个系统所有主机的运行状态,比如内存、cpu、网络、还有各种服务指标等,还可以在故障出现时第一时间启动应急措施,比如通过脚本、命令等重启服务,通过短信、微信、邮箱等快速通知运维人员以确保及时修复故障而不影响生产 阅读全文
摘要:
日志对于系统和服务安全来说非常重要,它记录了系统每天发生的各种各样的事情,你可以通过他来检查并排除错误发生的原因,或者受到攻击时攻击者留下的痕迹。日志主要的功能有:审计和监测。他还可以实时的监测系统状态,监测和追踪侵入者等等。本篇会比较详细的介绍有关Linux日志管理相关的基础介绍和技巧、工具,帮助 阅读全文
摘要:
Ansible是新出现的自动化运维工具,基于Python开发,集合了众多运维工具(puppet、cfengine、chef、func、fabric)的优点,实现了批量系统配置、批量程序部署、批量运行命令等功能。 Ansible基础模块和功能 Ansible是新出现的自动化运维工具,基于Python开 阅读全文