文章分类 -  Big Data

大数据领域
摘要:结语:大数据运维,大有作为 高俊峰(南非蚂蚁) 你好,看到这里,恭喜你学完了本专栏的全部内容。本专栏的定位是零基础入门大数据运维,所以你学习的内容更多是关于大数据平台各个组件的安装、部署和配置,这些技术看似简单,但操作起来,其实一点也不简单。 大数据平台中涉及的技术,都需要 理解原理、运行机制,才能 阅读全文
posted @ 2021-07-29 16:05 jpSpaceX 阅读(520) 评论(0) 推荐(0) 编辑
摘要:第30讲:Hadoop 跨集群数据迁移应用实践 高俊峰(南非蚂蚁) 我们的 Hadoop 大数据平台已经运行多年,使用的版本是 CDH 5.8,平台上的各个组件(HDFS、Yarn、Hive、Spark)也都是基于这个版本的,但随着对 Hadoop 平台的深入使用,部分组件版本过低,有些新功能无法使 阅读全文
posted @ 2021-07-28 19:58 jpSpaceX 阅读(906) 评论(0) 推荐(0) 编辑
摘要:第29讲:大数据平台的硬件规划、网络调优、架构设计、节点规划 高俊峰(南非蚂蚁) 这一课时,我将向你介绍 Hadoop 大数据平台的硬件选型、网络方面的架构设计和存储规划等内容。 ###大数据平台硬件选型 要对 Hadoop 大数据平台进行硬件选型,首先需要了解 Hadoop 的运行架构以及每个角色 阅读全文
posted @ 2021-07-28 19:36 jpSpaceX 阅读(3615) 评论(0) 推荐(0) 编辑
摘要:第28讲:Hadoop 平台常见故障汇总以及操作系统性能调优 高俊峰(南非蚂蚁) ###Hadoop 日常运维问题及其解决方法 ####1.如何下线一个 datanode 节点? 当一个 datanode 节点所在的服务器故障或者将要退役时,你需要在 Hadoop 中下线这个节点,下线一个 data 阅读全文
posted @ 2021-07-27 19:43 jpSpaceX 阅读(2078) 评论(0) 推荐(1) 编辑
摘要:第27讲:Yarn、HDFS、Kafka 内存调优策略以及性能瓶颈 高俊峰(南非蚂蚁) Hadoop 性能调优是一项复杂烦琐、难度极大的工作,不仅要求对 Hadoop 本身有深刻理解,还涉及底层硬件、网络、操作系统、Java 虚拟机等方面的调优工作。 Hadoop 性能调优,不仅靠运维,还需开发人员 阅读全文
posted @ 2021-07-27 19:16 jpSpaceX 阅读(1083) 评论(0) 推荐(0) 编辑
摘要:第26讲:HDFS 存储权限 ACL 控制策略以及与系统权限整合应用 高俊峰(南非蚂蚁) ###POSIX 系统权限模型 POSIX 系统权限模型 是 Linux/Unix 下的一个 权限定义标准,此标准规定了每个文件和目录有一个所有者(Owner)和一个组(Group)。 文件和目录可以通过权限区 阅读全文
posted @ 2021-07-26 23:35 jpSpaceX 阅读(802) 评论(0) 推荐(0) 编辑
摘要:第25讲:Yarn 资源调度 Fair Schedule 与 Capacity Scheduler 配置选型 高俊峰(南非蚂蚁) 在大数据平台运维中,会经常遇到集群资源争抢的问题。因为在公司内部,Hadoop Yarn 集群一般会被多个业务、多个用户同时使用,共享 Yarn 资源。此时,如果不对集群 阅读全文
posted @ 2021-07-23 18:42 jpSpaceX 阅读(971) 评论(0) 推荐(0) 编辑
摘要:第24讲:通过 Kafka Eagle 实现对 Kafka 消息队列的监控 高俊峰(南非蚂蚁) 在企业实际应用中,如果业务比较复杂,那么管理的 Consumer Group 和 Topic 数也会随之增加,此时如果再使用 Kafka 提供的命令行工具,可能会出现力不从心的感觉。 因此,我们需要一款更 阅读全文
posted @ 2021-07-23 18:18 jpSpaceX 阅读(1017) 评论(0) 推荐(0) 编辑
摘要:第23讲:Namenode、Datanode、Nodemanager 等服务状态监控策略 高俊峰(南非蚂蚁) ###Centreon 介绍与安装 Centreon 是一款功能强大的分布式 IT 监控系统,通过第三方组件可以实现对网络、操作系统和应用程序的监控: 首先,它是开源的,你可以免费使用它; 阅读全文
posted @ 2021-07-23 17:49 jpSpaceX 阅读(736) 评论(0) 推荐(0) 编辑
摘要:第22讲:通过 Ganglia 实现对 HDFS、Yarn、Spark 运行状态监控 高俊峰(南非蚂蚁) ###Ganglia 概念与架构 ####1. Ganglia 介绍 说起 Ganglia,可能大家有些陌生,但是如果提起大数据平台监控工具,那么第一个想到的就是 Ganglia。因为 Gang 阅读全文
posted @ 2021-07-22 17:47 jpSpaceX 阅读(630) 评论(0) 推荐(0) 编辑
摘要:第21讲:Filebeat+Kafka+Logstash+Elasticsearch 构建可视化日志分析系统 高俊峰(南非蚂蚁) ###典型 ELK 应用架构 下图是本课时即将要介绍的一个线上真实案例的架构图: 某个线上案例图 此架构稍微有些复杂,这里解读一下架构图,该图从左到右,总共分为 5 层, 阅读全文
posted @ 2021-07-22 16:38 jpSpaceX 阅读(755) 评论(0) 推荐(0) 编辑
摘要:第20讲:日均数据量 30 亿的 Filebeat+Kafka+Mirrormaker 跨机房实时日志传送案例 高俊峰(南非蚂蚁) ###案例环境介绍 这是我们之前的一个应用案例,先说一下业务场景,这是一款电商 App 产品,此 App 运行在某公有云上,每天都会产生大量日志,其中涉及访问日志、购买 阅读全文
posted @ 2021-07-21 16:11 jpSpaceX 阅读(743) 评论(0) 推荐(0) 编辑
摘要:第19讲:Kafka 应用场景、集群容量规划、架构设计应用案例 高俊峰(南非蚂蚁) ###Kafka 基础与入门 ####1. Kafka 基本概念 Kafka 官方的定义:是一种高吞吐量的分布式发布/订阅消息系统。这样说起来可能不太好理解,这里简单举个例子:现在是个大数据时代,各种商业、社交、搜索 阅读全文
posted @ 2021-07-21 15:47 jpSpaceX 阅读(531) 评论(0) 推荐(0) 编辑
摘要:第18讲:Elasticsearch 应用架构的实现与调优 高俊峰(南非蚂蚁) ###Elasticsearch 介绍 Elasticsearch 是一个实时的分布式搜索和分析引擎,它可以用于全文搜索、结构化搜索及分析,并采用 Java 语言编写,它的主要特点如下: 实时搜索、实时分析; 分布式架构 阅读全文
posted @ 2021-07-20 19:58 jpSpaceX 阅读(169) 评论(0) 推荐(0) 编辑
摘要:第17讲:日志收集、分析过滤工具 Logstash 应用实战 高俊峰(南非蚂蚁) 本课时主要讲解“日志收集、分析过滤工具 Logstash 应用实战”。 ###Logstash 介绍与安装 Logstash 是一款轻量级的、开源的日志收集处理框架,它可以方便地把分散的、多样化的日志搜集起来,并进行自 阅读全文
posted @ 2021-07-20 19:28 jpSpaceX 阅读(432) 评论(0) 推荐(0) 编辑
摘要:第16讲:轻量级日志收集工具 Filebeat 应用案例 高俊峰(南非蚂蚁) ###Filebeat 简介 Filebeat 是一个开源的文本日志收集器,Elastic 公司 Beats 数据采集产品的一个子产品,采用 Go 语言开发。一般安装在业务服务器上作为代理来监测日志目录或特定的日志文件,并 阅读全文
posted @ 2021-07-19 18:16 jpSpaceX 阅读(363) 评论(0) 推荐(0) 编辑
摘要:第15讲:Flink Standalone、Flink on Yarn 集群构建与应用场景 高俊峰(南非蚂蚁) 本课时主要讲解“Flink 独立集群模式与 Flink on Yarn 模式应用实战”。 ###Flink 概念及架构介绍 Flink 是一个高性能、高吞吐、低延迟的流处理框架,用于在无边 阅读全文
posted @ 2021-07-19 17:54 jpSpaceX 阅读(655) 评论(0) 推荐(0) 编辑
摘要:第14讲:HBase 与 Hadoop 的整合应用实践 高俊峰(南非蚂蚁) ###Spark 与 Yarn 的整合过程 Spark 独立模式下集群资源配置比较灵活,但是当用户较多时,资源调度无法控制,则会出现资源争抢的情况。此时可以考虑使用 Yarn 的资源调度,也就是将 Spark 整合到 Yar 阅读全文
posted @ 2021-07-19 17:31 jpSpaceX 阅读(351) 评论(0) 推荐(0) 编辑
摘要:第13讲:Spark Standalone 模式的构建以及 Spark 与 Yarn 的整合 高俊峰(南非蚂蚁) ###安装部署独立模式的 Spark Spark 现在已经广泛使用在各个企业中,常见的应用模式有两种,分别是独立集群模式,以及与 Yarn 整合使用模式,下面分别介绍这两种模式的使用。 阅读全文
posted @ 2021-07-19 17:13 jpSpaceX 阅读(337) 评论(0) 推荐(0) 编辑
摘要:第12讲:Hadoop 分布式资源管理器 Yarn、MR 运行机制剖析 高俊峰(南非蚂蚁) 本课时主要剖析 Hadoop 分布式资源管理器 Yarn 和 MR 运行机制。 ###Yarn 的整体架构 Yarn 是 Hadoop2.x 版本提出的一种全新的资源管理架构,此架构不仅支持 MapReduc 阅读全文
posted @ 2021-07-19 16:00 jpSpaceX 阅读(678) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示