2024 年 1月 11 日随笔档案 - HOUHUILIN

2024年1月11日

摘要： YarnClient YarnCluster 客户端（Client）通过YARN的ResourceManager提交应用程序。在此过程中，客户端进行权限验证，生成Job ID和资源上传路径，并将这些信息返回给客户端。客户端将jar包、配置文件、第三方包等文件上传到指定的HDFS路径。完成后，客户端阅读全文

posted @ 2024-01-11 22:38 HOUHUILIN 阅读(105) 评论(0) 推荐(0) 编辑

Spark - 面试题

摘要： Spark是什么？答案：Apache Spark是一个快速、通用的大数据处理引擎，它提供了大规模数据集的内存计算和分布式计算能力。Spark可以处理各种数据源，如HDFS、Hive、Cassandra等，并提供了丰富的API和工具集，用于批处理、流处理、机器学习、图处理等多种计算场景。 Spark的阅读全文

posted @ 2024-01-11 22:21 HOUHUILIN 阅读(33) 评论(0) 推荐(0) 编辑

Hive - 面试题

摘要：什么是Hive？答案：Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供类SQL查询功能。 Hive的数据存储在哪里？答案：Hive的数据通常存储在Hadoop分布式文件系统（HDFS）上。Hive将HDFS上的数据映射成表格形式，并提供类似SQL的查询语阅读全文

posted @ 2024-01-11 22:16 HOUHUILIN 阅读(29) 评论(0) 推荐(0) 编辑

Zookeeper - 面试题

摘要：什么是Zookeeper？答案：Zookeeper是一个分布式协调服务，主要用于管理和协调分布式系统中的各种服务和进程。它提供了一个集中式的配置管理、分布式同步、组服务等机制，使得分布式系统中的各种服务和进程能够协同工作。 Zookeeper的主要组件有哪些？答案：Zookeeper的主要组件包括Z 阅读全文

posted @ 2024-01-11 22:11 HOUHUILIN 阅读(13) 评论(0) 推荐(0) 编辑

Kafka - 面试题

摘要： Kafka是什么？它用于什么场景？答案：Kafka是一个分布式流平台，用于构建实时数据流管道和应用。它主要用于处理和传输大规模的流数据，例如日志、事件和其他类型的数据。Kafka广泛应用于大数据处理、实时流处理、消息队列等领域。 Kafka的主要组件有哪些？它们的作用是什么？答案：Kafka的主要组阅读全文

posted @ 2024-01-11 22:07 HOUHUILIN 阅读(13) 评论(0) 推荐(0) 编辑

Ansible - [06] Playbook

摘要：

Playbook 概述 Ansible ad-hoc 可以通过命令行形式远程管理其他主机适合执行一些临时性简单任务 Ansible playbook 中文名称叫剧本将经常需要执行的任务写入一个文件（剧本）剧本中可以包含多个任务剧本写好后，我们随时调用剧本，执行相关的任务名称 playboo 阅读全文

posted @ 2024-01-11 18:26 HOUHUILIN 阅读(7) 评论(0) 推荐(0) 编辑

Ansible - [05] 配置文件详解

摘要：

主配置文件 ansible.cfg 修改sudo相关配置，在实际工作中，可能使用ansible时，所使用的用户并不是root用户，而是管理员给的一个普通用户，所以需要考虑ansible相关配置文件需要怎么写才能支持日常工作。 [defaults] inventory=~/ansible/hosts 阅读全文

posted @ 2024-01-11 17:51 HOUHUILIN 阅读(22) 评论(0) 推荐(0) 编辑

Ansible - [04] 关于sudo的一些配置

摘要：

sudo sudo，以超级管理员或其他人的身份执行命令基本流程管理员需要先授权（修改/etc/sudoers文件）普通用户以sudo的形式执行命令可以通过sudo -l查看授权情况配置suddoer：vim /etc/sudoers，进行如下配置，jerry用户可以无需输入密码即以root 阅读全文

posted @ 2024-01-11 11:56 HOUHUILIN 阅读(64) 评论(0) 推荐(0) 编辑

HOUHUILIN

别在最好的年纪，辜负了最好的自己。

公告