07 2021 档案
摘要:结语:大数据运维,大有作为 高俊峰(南非蚂蚁) 你好,看到这里,恭喜你学完了本专栏的全部内容。本专栏的定位是零基础入门大数据运维,所以你学习的内容更多是关于大数据平台各个组件的安装、部署和配置,这些技术看似简单,但操作起来,其实一点也不简单。 大数据平台中涉及的技术,都需要 理解原理、运行机制,才能
阅读全文
摘要:第30讲:Hadoop 跨集群数据迁移应用实践 高俊峰(南非蚂蚁) 我们的 Hadoop 大数据平台已经运行多年,使用的版本是 CDH 5.8,平台上的各个组件(HDFS、Yarn、Hive、Spark)也都是基于这个版本的,但随着对 Hadoop 平台的深入使用,部分组件版本过低,有些新功能无法使
阅读全文
摘要:第29讲:大数据平台的硬件规划、网络调优、架构设计、节点规划 高俊峰(南非蚂蚁) 这一课时,我将向你介绍 Hadoop 大数据平台的硬件选型、网络方面的架构设计和存储规划等内容。 ###大数据平台硬件选型 要对 Hadoop 大数据平台进行硬件选型,首先需要了解 Hadoop 的运行架构以及每个角色
阅读全文
摘要:第28讲:Hadoop 平台常见故障汇总以及操作系统性能调优 高俊峰(南非蚂蚁) ###Hadoop 日常运维问题及其解决方法 ####1.如何下线一个 datanode 节点? 当一个 datanode 节点所在的服务器故障或者将要退役时,你需要在 Hadoop 中下线这个节点,下线一个 data
阅读全文
摘要:第27讲:Yarn、HDFS、Kafka 内存调优策略以及性能瓶颈 高俊峰(南非蚂蚁) Hadoop 性能调优是一项复杂烦琐、难度极大的工作,不仅要求对 Hadoop 本身有深刻理解,还涉及底层硬件、网络、操作系统、Java 虚拟机等方面的调优工作。 Hadoop 性能调优,不仅靠运维,还需开发人员
阅读全文
摘要:第26讲:HDFS 存储权限 ACL 控制策略以及与系统权限整合应用 高俊峰(南非蚂蚁) ###POSIX 系统权限模型 POSIX 系统权限模型 是 Linux/Unix 下的一个 权限定义标准,此标准规定了每个文件和目录有一个所有者(Owner)和一个组(Group)。 文件和目录可以通过权限区
阅读全文
摘要:第25讲:Yarn 资源调度 Fair Schedule 与 Capacity Scheduler 配置选型 高俊峰(南非蚂蚁) 在大数据平台运维中,会经常遇到集群资源争抢的问题。因为在公司内部,Hadoop Yarn 集群一般会被多个业务、多个用户同时使用,共享 Yarn 资源。此时,如果不对集群
阅读全文
摘要:第24讲:通过 Kafka Eagle 实现对 Kafka 消息队列的监控 高俊峰(南非蚂蚁) 在企业实际应用中,如果业务比较复杂,那么管理的 Consumer Group 和 Topic 数也会随之增加,此时如果再使用 Kafka 提供的命令行工具,可能会出现力不从心的感觉。 因此,我们需要一款更
阅读全文
摘要:第23讲:Namenode、Datanode、Nodemanager 等服务状态监控策略 高俊峰(南非蚂蚁) ###Centreon 介绍与安装 Centreon 是一款功能强大的分布式 IT 监控系统,通过第三方组件可以实现对网络、操作系统和应用程序的监控: 首先,它是开源的,你可以免费使用它;
阅读全文
摘要:第22讲:通过 Ganglia 实现对 HDFS、Yarn、Spark 运行状态监控 高俊峰(南非蚂蚁) ###Ganglia 概念与架构 ####1. Ganglia 介绍 说起 Ganglia,可能大家有些陌生,但是如果提起大数据平台监控工具,那么第一个想到的就是 Ganglia。因为 Gang
阅读全文
摘要:第21讲:Filebeat+Kafka+Logstash+Elasticsearch 构建可视化日志分析系统 高俊峰(南非蚂蚁) ###典型 ELK 应用架构 下图是本课时即将要介绍的一个线上真实案例的架构图: 某个线上案例图 此架构稍微有些复杂,这里解读一下架构图,该图从左到右,总共分为 5 层,
阅读全文
摘要:第20讲:日均数据量 30 亿的 Filebeat+Kafka+Mirrormaker 跨机房实时日志传送案例 高俊峰(南非蚂蚁) ###案例环境介绍 这是我们之前的一个应用案例,先说一下业务场景,这是一款电商 App 产品,此 App 运行在某公有云上,每天都会产生大量日志,其中涉及访问日志、购买
阅读全文
摘要:第19讲:Kafka 应用场景、集群容量规划、架构设计应用案例 高俊峰(南非蚂蚁) ###Kafka 基础与入门 ####1. Kafka 基本概念 Kafka 官方的定义:是一种高吞吐量的分布式发布/订阅消息系统。这样说起来可能不太好理解,这里简单举个例子:现在是个大数据时代,各种商业、社交、搜索
阅读全文
摘要:第18讲:Elasticsearch 应用架构的实现与调优 高俊峰(南非蚂蚁) ###Elasticsearch 介绍 Elasticsearch 是一个实时的分布式搜索和分析引擎,它可以用于全文搜索、结构化搜索及分析,并采用 Java 语言编写,它的主要特点如下: 实时搜索、实时分析; 分布式架构
阅读全文
摘要:第17讲:日志收集、分析过滤工具 Logstash 应用实战 高俊峰(南非蚂蚁) 本课时主要讲解“日志收集、分析过滤工具 Logstash 应用实战”。 ###Logstash 介绍与安装 Logstash 是一款轻量级的、开源的日志收集处理框架,它可以方便地把分散的、多样化的日志搜集起来,并进行自
阅读全文
摘要:第16讲:轻量级日志收集工具 Filebeat 应用案例 高俊峰(南非蚂蚁) ###Filebeat 简介 Filebeat 是一个开源的文本日志收集器,Elastic 公司 Beats 数据采集产品的一个子产品,采用 Go 语言开发。一般安装在业务服务器上作为代理来监测日志目录或特定的日志文件,并
阅读全文
摘要:第15讲:Flink Standalone、Flink on Yarn 集群构建与应用场景 高俊峰(南非蚂蚁) 本课时主要讲解“Flink 独立集群模式与 Flink on Yarn 模式应用实战”。 ###Flink 概念及架构介绍 Flink 是一个高性能、高吞吐、低延迟的流处理框架,用于在无边
阅读全文
摘要:第14讲:HBase 与 Hadoop 的整合应用实践 高俊峰(南非蚂蚁) ###Spark 与 Yarn 的整合过程 Spark 独立模式下集群资源配置比较灵活,但是当用户较多时,资源调度无法控制,则会出现资源争抢的情况。此时可以考虑使用 Yarn 的资源调度,也就是将 Spark 整合到 Yar
阅读全文
摘要:第13讲:Spark Standalone 模式的构建以及 Spark 与 Yarn 的整合 高俊峰(南非蚂蚁) ###安装部署独立模式的 Spark Spark 现在已经广泛使用在各个企业中,常见的应用模式有两种,分别是独立集群模式,以及与 Yarn 整合使用模式,下面分别介绍这两种模式的使用。
阅读全文
摘要:第12讲:Hadoop 分布式资源管理器 Yarn、MR 运行机制剖析 高俊峰(南非蚂蚁) 本课时主要剖析 Hadoop 分布式资源管理器 Yarn 和 MR 运行机制。 ###Yarn 的整体架构 Yarn 是 Hadoop2.x 版本提出的一种全新的资源管理架构,此架构不仅支持 MapReduc
阅读全文
摘要:第11讲:HDFS 组件运行机制剖析及 HDFS Shell 的使用 高俊峰(南非蚂蚁) ###HDFS 的基本架构 Hadoop 中的分布式文件系统 HDFS 为大数据平台提供了统一的存储,它主要由三部分构成,分别是 NameNode、DataNode 和 SecondaryNameNode。如果
阅读全文
摘要:第10讲:如何通过 Hive/tez 与 Hadoop 的整合快速实现大数据开发(下) 高俊峰(南非蚂蚁) #####(3)启动 Hiveserver2 服务 如果有程序通过 JDBC/ODBC 接口连接 Hive 的话,就需要启动 Hiveserver2 服务,否则不需要启动。启动后会开启 100
阅读全文
摘要:第09讲:如何通过 Hive/tez 与 Hadoop 的整合快速实现大数据开发(上) 高俊峰(南非蚂蚁) ###Hive 功能介绍 Hive 是基于 Hadoop 的一个外围数据仓库分析组件,可以把 Hive 理解为一个数据仓库,但这和传统的数据库是有差别的。 传统数据库是面向业务存储,比如 OA
阅读全文
摘要:第08讲:通过 Ambari 工具自动化构建 Hadoop 大数据平台和外围应用(下) 高俊峰(南非蚂蚁) ####3. 通过 Ambari 安装 HBase、Hive 等外围应用 除了一些基础的 Hadoop 应用组件,在企业实际应用中还会集成一些其他生态组件,这些组件可以减少开发工作量,提高工作
阅读全文
摘要:第07讲:通过 Ambari 工具自动化构建 Hadoop 大数据平台和外围应用(上) 高俊峰(南非蚂蚁) 本课时主要讲“通过 Ambari 工具自动化构建大数据运维平台”的内容。 ###大数据运维工具 Ambari 当学完前面的内容,是否发现分布式 Hadoop 集群部署很麻烦,而且管理维护也不简
阅读全文
摘要:第06讲:手动模式构建双 Namenode+Yarn 的 Hadoop 集群(下) 高俊峰(南非蚂蚁) ####4. NameNode 与 Yarn 基础配置文件功能解读 NameNode 与 Yarn 的配置中涉及的配置文件有多个,并且每个配置文件中参数众多,因此,如何设置合理的配置参数是部署 H
阅读全文
摘要:第05讲:手动模式构建双 Namenode+Yarn 的 Hadoop 集群(上) 高俊峰(南非蚂蚁) 本课时主要讲“手动模式构建双 NameNode + Yarn 的 Hadoop 集群”的内容。 ###双 NameNode 实现原理与应用架构 前面铺垫了那么多,现在是时候开始进入 Hadoop
阅读全文
摘要:第04讲:自动化运维工具 Ansible 在部署大数据平台下的应用(下) 高俊峰(南非蚂蚁) ###ansible-playbook 的使用 ####1. playbook 简介与文件格式 playbook 字面意思是剧本,现实中由演员按照剧本表演,在 Ansible 中,这次由计算机进行表演,由计
阅读全文
摘要:第03讲:自动化运维工具 Ansible 在部署大数据平台下的应用(上) 高俊峰(南非蚂蚁) 本课时主要介绍自动化运维工具 Ansible 在部署大数据平台下的应用。 ###大数据环境下海量服务器如何运维 谷歌、Facebook 等大厂一个运维人员管理的服务器在上万台左右,这么多的服务器使用手工的方
阅读全文
摘要:第02讲:Hadoop 发行版选型和伪分布式平台的构建 高俊峰(南非蚂蚁) 本课时主要介绍 Hadoop 发行版选型以及伪分布式平台的构建。 ###Hadoop 发行版介绍与选择 到目前为止,你应该初步了解了大数据以及 Hadoop 相关的概念了。本课时我将介绍 Hadoop 如何快速使用,由于 H
阅读全文
摘要:第01讲:大话 Hadoop 生态圈 高俊峰(南非蚂蚁) 所谓大数据是相对于小数据、传统数据来说的,大数据要解决的就是大规模数据存储、大规模数据计算、大规模数据处理,而 Hadoop 生态系统就是用来实现这些功能的。 要讲清大数据的原理,我们还要从一个故事讲起。 ###故事开始:一个电商平台的用户行
阅读全文
摘要:开篇词:掌握大数据,把握未来 高俊峰(南非蚂蚁) 你好,欢迎来到《大数据运维实战》专栏(2020版)。 入行以来,我从事大数据运维也有十多年了,期间我做过系统运维、DBA,也做过大数据分析师,最后选择了大数据运维方向,曾设计并管理超过千台、PB 级的数据平台。在这期间, 我见证并目睹了国内大数据行业
阅读全文
摘要:[渗透实战]:Geisha: 1 Vulnhub 实战 信息收集 arp-scan -l nmap -A 192.168.1.173 -p- -oN nmap.A gobuster gobuster dir -u http://192.168.1.173:7125/ -w /usr/share/wo
阅读全文
摘要:[渗透实战]:Sumo: 1.1 Vulnhub 实战(脏牛漏洞提权) 网络扫描 arp-scan -l nmap -A 192.168.1.174 -p- nikto 扫描网站漏洞 nikto -h http://192.168.1.174 攻击 使用msf 查找此漏洞的攻击模块 use expl
阅读全文