摘要: 第13讲:Spark Standalone 模式的构建以及 Spark 与 Yarn 的整合 高俊峰(南非蚂蚁) ###安装部署独立模式的 Spark Spark 现在已经广泛使用在各个企业中,常见的应用模式有两种,分别是独立集群模式,以及与 Yarn 整合使用模式,下面分别介绍这两种模式的使用。 阅读全文
posted @ 2021-07-19 17:13 jpSpaceX 阅读(309) 评论(0) 推荐(0) 编辑
摘要: 第12讲:Hadoop 分布式资源管理器 Yarn、MR 运行机制剖析 高俊峰(南非蚂蚁) 本课时主要剖析 Hadoop 分布式资源管理器 Yarn 和 MR 运行机制。 ###Yarn 的整体架构 Yarn 是 Hadoop2.x 版本提出的一种全新的资源管理架构,此架构不仅支持 MapReduc 阅读全文
posted @ 2021-07-19 16:00 jpSpaceX 阅读(652) 评论(0) 推荐(0) 编辑
摘要: 第11讲:HDFS 组件运行机制剖析及 HDFS Shell 的使用 高俊峰(南非蚂蚁) ###HDFS 的基本架构 Hadoop 中的分布式文件系统 HDFS 为大数据平台提供了统一的存储,它主要由三部分构成,分别是 NameNode、DataNode 和 SecondaryNameNode。如果 阅读全文
posted @ 2021-07-19 01:20 jpSpaceX 阅读(418) 评论(0) 推荐(0) 编辑
摘要: 第10讲:如何通过 Hive/tez 与 Hadoop 的整合快速实现大数据开发(下) 高俊峰(南非蚂蚁) #####(3)启动 Hiveserver2 服务 如果有程序通过 JDBC/ODBC 接口连接 Hive 的话,就需要启动 Hiveserver2 服务,否则不需要启动。启动后会开启 100 阅读全文
posted @ 2021-07-17 20:08 jpSpaceX 阅读(319) 评论(0) 推荐(0) 编辑
摘要: 第09讲:如何通过 Hive/tez 与 Hadoop 的整合快速实现大数据开发(上) 高俊峰(南非蚂蚁) ###Hive 功能介绍 Hive 是基于 Hadoop 的一个外围数据仓库分析组件,可以把 Hive 理解为一个数据仓库,但这和传统的数据库是有差别的。 传统数据库是面向业务存储,比如 OA 阅读全文
posted @ 2021-07-17 19:46 jpSpaceX 阅读(367) 评论(0) 推荐(0) 编辑
摘要: 第08讲:通过 Ambari 工具自动化构建 Hadoop 大数据平台和外围应用(下) 高俊峰(南非蚂蚁) ####3. 通过 Ambari 安装 HBase、Hive 等外围应用 除了一些基础的 Hadoop 应用组件,在企业实际应用中还会集成一些其他生态组件,这些组件可以减少开发工作量,提高工作 阅读全文
posted @ 2021-07-16 23:28 jpSpaceX 阅读(410) 评论(0) 推荐(0) 编辑
摘要: 第07讲:通过 Ambari 工具自动化构建 Hadoop 大数据平台和外围应用(上) 高俊峰(南非蚂蚁) 本课时主要讲“通过 Ambari 工具自动化构建大数据运维平台”的内容。 ###大数据运维工具 Ambari 当学完前面的内容,是否发现分布式 Hadoop 集群部署很麻烦,而且管理维护也不简 阅读全文
posted @ 2021-07-16 23:02 jpSpaceX 阅读(637) 评论(0) 推荐(0) 编辑
摘要: 第06讲:手动模式构建双 Namenode+Yarn 的 Hadoop 集群(下) 高俊峰(南非蚂蚁) ####4. NameNode 与 Yarn 基础配置文件功能解读 NameNode 与 Yarn 的配置中涉及的配置文件有多个,并且每个配置文件中参数众多,因此,如何设置合理的配置参数是部署 H 阅读全文
posted @ 2021-07-15 18:26 jpSpaceX 阅读(211) 评论(0) 推荐(0) 编辑
摘要: 第05讲:手动模式构建双 Namenode+Yarn 的 Hadoop 集群(上) 高俊峰(南非蚂蚁) 本课时主要讲“手动模式构建双 NameNode + Yarn 的 Hadoop 集群”的内容。 ###双 NameNode 实现原理与应用架构 前面铺垫了那么多,现在是时候开始进入 Hadoop 阅读全文
posted @ 2021-07-15 17:48 jpSpaceX 阅读(375) 评论(0) 推荐(0) 编辑
摘要: 第04讲:自动化运维工具 Ansible 在部署大数据平台下的应用(下) 高俊峰(南非蚂蚁) ###ansible-playbook 的使用 ####1. playbook 简介与文件格式 playbook 字面意思是剧本,现实中由演员按照剧本表演,在 Ansible 中,这次由计算机进行表演,由计 阅读全文
posted @ 2021-07-15 17:32 jpSpaceX 阅读(268) 评论(0) 推荐(0) 编辑
摘要: 第03讲:自动化运维工具 Ansible 在部署大数据平台下的应用(上) 高俊峰(南非蚂蚁) 本课时主要介绍自动化运维工具 Ansible 在部署大数据平台下的应用。 ###大数据环境下海量服务器如何运维 谷歌、Facebook 等大厂一个运维人员管理的服务器在上万台左右,这么多的服务器使用手工的方 阅读全文
posted @ 2021-07-14 23:37 jpSpaceX 阅读(530) 评论(0) 推荐(0) 编辑
摘要: 第02讲:Hadoop 发行版选型和伪分布式平台的构建 高俊峰(南非蚂蚁) 本课时主要介绍 Hadoop 发行版选型以及伪分布式平台的构建。 ###Hadoop 发行版介绍与选择 到目前为止,你应该初步了解了大数据以及 Hadoop 相关的概念了。本课时我将介绍 Hadoop 如何快速使用,由于 H 阅读全文
posted @ 2021-07-14 23:17 jpSpaceX 阅读(294) 评论(0) 推荐(0) 编辑
摘要: 第01讲:大话 Hadoop 生态圈 高俊峰(南非蚂蚁) 所谓大数据是相对于小数据、传统数据来说的,大数据要解决的就是大规模数据存储、大规模数据计算、大规模数据处理,而 Hadoop 生态系统就是用来实现这些功能的。 要讲清大数据的原理,我们还要从一个故事讲起。 ###故事开始:一个电商平台的用户行 阅读全文
posted @ 2021-07-13 18:26 jpSpaceX 阅读(427) 评论(0) 推荐(0) 编辑
摘要: 开篇词:掌握大数据,把握未来 高俊峰(南非蚂蚁) 你好,欢迎来到《大数据运维实战》专栏(2020版)。 入行以来,我从事大数据运维也有十多年了,期间我做过系统运维、DBA,也做过大数据分析师,最后选择了大数据运维方向,曾设计并管理超过千台、PB 级的数据平台。在这期间, 我见证并目睹了国内大数据行业 阅读全文
posted @ 2021-07-13 18:00 jpSpaceX 阅读(439) 评论(0) 推荐(1) 编辑
摘要: [渗透实战]:Geisha: 1 Vulnhub 实战 信息收集 arp-scan -l nmap -A 192.168.1.173 -p- -oN nmap.A gobuster gobuster dir -u http://192.168.1.173:7125/ -w /usr/share/wo 阅读全文
posted @ 2021-07-01 16:41 jpSpaceX 阅读(84) 评论(0) 推荐(0) 编辑