摘要: YarnClient YarnCluster 客户端(Client)通过YARN的ResourceManager提交应用程序。在此过程中,客户端进行权限验证,生成Job ID和资源上传路径,并将这些信息返回给客户端。 客户端将jar包、配置文件、第三方包等文件上传到指定的HDFS路径。完成后,客户端 阅读全文
posted @ 2024-01-11 22:38 HOUHUILIN 阅读(105) 评论(0) 推荐(0) 编辑
摘要: Spark是什么?答案:Apache Spark是一个快速、通用的大数据处理引擎,它提供了大规模数据集的内存计算和分布式计算能力。Spark可以处理各种数据源,如HDFS、Hive、Cassandra等,并提供了丰富的API和工具集,用于批处理、流处理、机器学习、图处理等多种计算场景。 Spark的 阅读全文
posted @ 2024-01-11 22:21 HOUHUILIN 阅读(33) 评论(0) 推荐(0) 编辑
摘要: 什么是Hive?答案:Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。 Hive的数据存储在哪里?答案:Hive的数据通常存储在Hadoop分布式文件系统(HDFS)上。Hive将HDFS上的数据映射成表格形式,并提供类似SQL的查询语 阅读全文
posted @ 2024-01-11 22:16 HOUHUILIN 阅读(29) 评论(0) 推荐(0) 编辑
摘要: 什么是Zookeeper?答案:Zookeeper是一个分布式协调服务,主要用于管理和协调分布式系统中的各种服务和进程。它提供了一个集中式的配置管理、分布式同步、组服务等机制,使得分布式系统中的各种服务和进程能够协同工作。 Zookeeper的主要组件有哪些?答案:Zookeeper的主要组件包括Z 阅读全文
posted @ 2024-01-11 22:11 HOUHUILIN 阅读(13) 评论(0) 推荐(0) 编辑
摘要: Kafka是什么?它用于什么场景?答案:Kafka是一个分布式流平台,用于构建实时数据流管道和应用。它主要用于处理和传输大规模的流数据,例如日志、事件和其他类型的数据。Kafka广泛应用于大数据处理、实时流处理、消息队列等领域。 Kafka的主要组件有哪些?它们的作用是什么?答案:Kafka的主要组 阅读全文
posted @ 2024-01-11 22:07 HOUHUILIN 阅读(13) 评论(0) 推荐(0) 编辑
摘要: Ansible - [06] Playbook Playbook 概述 Ansible ad-hoc 可以通过命令行形式远程管理其他主机 适合执行一些临时性简单任务 Ansible playbook 中文名称叫 剧本 将经常需要执行的任务写入一个文件(剧本) 剧本中可以包含多个任务 剧本写好后,我们随时调用剧本,执行相关的任务名称 playboo 阅读全文
posted @ 2024-01-11 18:26 HOUHUILIN 阅读(7) 评论(0) 推荐(0) 编辑
摘要: Ansible - [05] 配置文件详解 主配置文件 ansible.cfg 修改sudo相关配置,在实际工作中,可能使用ansible时,所使用的用户并不是root用户,而是管理员给的一个普通用户,所以需要考虑ansible相关配置文件需要怎么写才能支持日常工作。 [defaults] inventory=~/ansible/hosts 阅读全文
posted @ 2024-01-11 17:51 HOUHUILIN 阅读(22) 评论(0) 推荐(0) 编辑
摘要: Ansible - [04] 关于sudo的一些配置 sudo sudo,以超级管理员或其他人的身份执行命令 基本流程 管理员需要先授权(修改/etc/sudoers文件) 普通用户以sudo的形式执行命令 可以通过sudo -l查看授权情况 配置suddoer:vim /etc/sudoers,进行如下配置,jerry用户可以无需输入密码即以root 阅读全文
posted @ 2024-01-11 11:56 HOUHUILIN 阅读(64) 评论(0) 推荐(0) 编辑