摘要:
以下面试题主要整理自尚硅谷相关文档 1. 你是如何实现 Flume 数据传输的监控的 使用第三方框架 Ganglia 实时监控 Flume。 2. Flume 的 Source,Sink,Channel 的作用?你们 Source 是什么类型? 1. 作用 (1)Source 组件是专门用来收集数据 阅读全文
摘要:
以下面试题主要整理自尚硅谷相关文档 1. 集群的最主要瓶颈 磁盘IO 2. Hadoop运行模式 包括单机模式、伪分布式模式、完全分布式模式。 单机模式(standalone) 单机模式是Hadoop的默认模式。这种模式在一台单机上运行,没有分布式文件系统,而是直接读写本地操作系统的文件系统。当首次 阅读全文
摘要:
以下面试题主要整理自尚硅谷相关文档 1. HBase数据模型(☆) 1)Name Space 命名空间,类似于关系型数据库的 DatabBase 概念,每个命名空间下有多个表。HBase 有两个自带的命名空间,分别是 hbase 和 default,hbase 中存放的是 HBase内置的表,def 阅读全文
摘要:
以下面试题主要整理自尚硅谷相关文档 1. 什么是Hive Hive:由 Facebook 开源用于解决海量结构化日志的数据统计。 Hive 是基于 Hadoop 的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并 提供类 SQL 查询功能。 本质是:将 HQL 转化成 MapReduce 程 阅读全文
摘要:
以下面试题主要整理自尚硅谷相关文档 1. Kafka介绍 Kafka 是一个分布式的基于发布/订阅模式的消息队列(Message Queue),主要应用于大数据实时处理领域。 2. 消息队列的两种模式 (1)点对点模式(一对一,消费者主动拉取数据,消息收到后消息清除) 消息生产者生产消息发送到Que 阅读全文
摘要:
以下面试题主要整理自尚硅谷相关文档 1. Spark的三种部署模式 1. Local模式:单机调试 local:只启动一个线程 local[k]:启动k个线程 local[*]:启动cpu数目的线程 2. 分布式 (1)standalone模式: 在架构上和MapReduce1具有一致性,资源抽象为 阅读全文
摘要:
以下面试题主要整理自尚硅谷相关文档 1. ZooKeeper介绍 1.ZooKeeper从设计模式角度来理解:是一个基于观察者模式设计的分布式服务管理框架,它负责存储和管理大家都关心的数据,然后接受观察者的注册,一旦这些数据的状态发生变化,ZooKeeper就将负责通知已经在ZooKeeper上注册 阅读全文