博客园 首页 私信博主 显示目录 隐藏目录 管理 动画

随笔分类 -  Hadoop

大数据 开发环境
摘要:flink-conf.yaml 如下: jobmanager.rpc.address: hadoop106 --jobManager 的IP地址 jobmanager.rpc.port: 6123 --jobManager 的端口,默认为6123 jobmanager.heap.mb: 1024M 阅读全文
posted @ 2022-06-29 11:01 CHANG_09 阅读(1092) 评论(1) 推荐(0) 编辑
摘要:Flume面试题(约0.5w字) 介绍下Flume Flume架构 Flume有哪些Source 说下Flume事务机制 介绍下Flume采集数据的原理?底层实现? Flume如何保证数据的可靠性 Flume传输数据时如何保证数据一致性(可靠性) Flume拦截器 如何监控消费型Flume的消费情况 阅读全文
posted @ 2022-06-28 15:11 CHANG_09 阅读(86) 评论(0) 推荐(0) 编辑
摘要:Hive面试题(约3.3w字) 说下为什么要使用Hive?Hive的优缺点?Hive的作用是什么? Hive是Hadoop生态系统中比不可少的一个工具,它提供了一种SQL(结构化查询语言)方言,可以查询存储在Hadoop分布式文件系统(HDFS)中的数据或其他和Hadoop集成的文件系统,如MapR 阅读全文
posted @ 2022-06-28 15:10 CHANG_09 阅读(378) 评论(0) 推荐(0) 编辑
摘要:MapReduce部分 介绍下MapReduce MapReduce优缺点 MapReduce架构 MapReduce工作原理 MapReduce哪个阶段最费时间 MapReduce中的Combine是干嘛的?有什么好外? MapReduce为什么一定要有环型缓冲区 MapReduce为什么一定要有 阅读全文
posted @ 2022-06-28 15:09 CHANG_09 阅读(199) 评论(0) 推荐(0) 编辑
摘要:Zookeeper面试题(约2.6w字) 介绍下Zookeeper是什么? Zookeeper有什么作用?优缺点?有什么应用场景? Zookeeper的选举策略,leader和follower的区别? 介绍下Zookeeper选举算法 Zookeeper的节点类型有哪些?分别作用是什么? Zooke 阅读全文
posted @ 2022-06-28 15:09 CHANG_09 阅读(65) 评论(0) 推荐(0) 编辑
摘要:HDFS部分 HDFS文件写入和读取流程 HDFS组成架构 介绍下HDFS,说下HDFS优缺点,以及使用场景 HDFS作用 HDFS的容错机制 HDFS的存储机制 HDFS的副本机制 HDFS的常见数据格式,列式存储格式和行存储格式异同点,列式存储优点有哪些? HDFS如何保证数据不丢失? HDFS 阅读全文
posted @ 2022-06-28 15:08 CHANG_09 阅读(161) 评论(0) 推荐(0) 编辑
摘要:数仓面试题(约3.6w字) 介绍下数据仓库 数仓的基本原理 数仓架构 数据仓库分层(层级划分),每层做什么?分层的好处? 数据分层是根据什么? 数仓分层的原则与思路 数仓建模常用模型吗?区别、优缺点? 星型模型和雪花模型的区别?应用场景?优劣对比 数仓建模有哪些方式? 数仓建模的流程? 维度建模的步 阅读全文
posted @ 2022-06-28 15:06 CHANG_09 阅读(519) 评论(1) 推荐(0) 编辑
摘要:数据库面试题(约3.9w字) 数据库中的事务是什么,MySQL中是怎么实现的 MySQL事务的特性? 数据库事务的隔离级别?解决了什么问题?默认事务隔离级别? 脏读,幻读,不可重复读的定义 MySQL怎么实现可重复读? 数据库第三范式和第四范式区别? MySQL的存储引擎? 数据库有哪些锁? 说下悲 阅读全文
posted @ 2022-06-28 15:06 CHANG_09 阅读(67) 评论(0) 推荐(0) 编辑
摘要:Flink面试题(约4.7w字) Flink架构 Flink的窗口了解哪些,都有什么区别,有哪几种?如何定义? Flink窗口函数,时间语义相关的问题 介绍下Flink的watermark(水位线),watermark需要实现哪个实现类,在何处定义?有什么作用? Flink的窗口(实现)机制 说下F 阅读全文
posted @ 2022-06-28 15:05 CHANG_09 阅读(250) 评论(0) 推荐(0) 编辑
摘要:Spark面试题(约9.8w字) Spark的任务执行流程 Spark的运行流程 Spark的作业运行流程是怎么样的? Spark的特点 Spark源码中的任务调度 Spark作业调度 Spark的架构 Spark的使用场景 Spark on standalone模型、YARN架构模型(画架构图) 阅读全文
posted @ 2022-06-28 15:04 CHANG_09 阅读(298) 评论(0) 推荐(0) 编辑
摘要:HBase面试题(约2.8w字) 介绍下HBase HBase是一个分布式的,面向列的开源数据库。它不同于一般的关系数据库,是一个适合于非结构化数据存储的数据库。另一个不同的是HBase基于列的而不是基于行的模式。HBase使用和 BigTable非常相同的数据模型。用户存储数据行在一个表里。一个数 阅读全文
posted @ 2022-06-28 15:03 CHANG_09 阅读(333) 评论(0) 推荐(0) 编辑
摘要:Kafka面试题(约5.5w字) 介绍下Kafka,Kafka的作用?Kafka的组件?适用场景? Kafka是分布式发布-订阅消息系统, 它最初是由LinkedIn公司开发的,之后成为Apache项目的一部分, Kafka是一个分布式,可划分的,冗余备份的持久性的日志服务,它主要用于处理流式数据。 阅读全文
posted @ 2022-06-28 15:02 CHANG_09 阅读(331) 评论(0) 推荐(0) 编辑
摘要:YARN部分 介绍下YARN Yet Another Resource Negotiator,另一种资源协调者,是一种新的 Hadoop 资源管理器它是一个通用资源管理系统,可为上层应用提供统一的资源管理和调度它的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨大好处。 YARN有几个模块 阅读全文
posted @ 2022-06-28 14:58 CHANG_09 阅读(363) 评论(0) 推荐(0) 编辑
摘要:Hadoop基础 介绍下Hadoop 分布式系统架构。开发分布式程序。利用集群的威力进行高速运算和存储。 Hadoop的特点 高可靠性 高效性 高可扩展性 高容错性 低成本 说下Hadoop生态圈组件及其作用 1,HDFS (分布式文件系统) 2,资源管理器(YARN 和 mesos) 3,mapr 阅读全文
posted @ 2022-06-28 11:30 CHANG_09 阅读(236) 评论(0) 推荐(0) 编辑
摘要:# 定义这个agent中各组件的名字a1.sources = r1a1.sinks = k1a1.channels = c1 # 描述和配置source组件:r1a1.sources.r1.type = execa1.sources.r1.command = tail -F /root/logs/t 阅读全文
posted @ 2022-06-16 10:56 CHANG_09 阅读(45) 评论(0) 推荐(0) 编辑
摘要:整个 Hadoop MapReduce 的作业执行流程如图 1 所示,共分为 10 步。 图 1 Hadoop MapReduce的作业执行流程 1. 提交作业 客户端向 JobTracker 提交作业。首先,用户需要将所有应该配置的参数根据需求配置好。作业提交之后,就会进入自动化执行。在这个过程中 阅读全文
posted @ 2022-06-16 10:53 CHANG_09 阅读(293) 评论(0) 推荐(0) 编辑
摘要:Hadoop MapReduce 的 Shuffle 阶段是指从 Map 的输出开始,包括系统执行排序,以及传送 Map 输出到 Reduce 作为输入的过程。排序阶段是指对 Map 端输出的 Key 进行排序的过程。不同的 Map 可能输出相同的 Key,相同的 Key 必须发送到同一个 Redu 阅读全文
posted @ 2022-06-16 10:35 CHANG_09 阅读(110) 评论(0) 推荐(0) 编辑
摘要:jdk 分发 flume 分发 阅读全文
posted @ 2022-06-14 09:44 CHANG_09 阅读(13) 评论(0) 推荐(0) 编辑
摘要:[root@hadoop106 ~]# vim /etc/hostnamehadoop106 vim /etc/sysconfig/network hostname=hadoop106vim /etc/hosts 47.100.210.196 hadoop106139.196.139.79 hado 阅读全文
posted @ 2022-06-14 09:13 CHANG_09 阅读(29) 评论(0) 推荐(0) 编辑
摘要:Hadoop 底层使用 MapReduce 计算架构,只有 map 和 reduce 两种操作,表达能力比较欠缺,而且在 MR 过程中会重复的读写 hdfs,造成大量的磁盘 io 读写操作,所以适合高时延环境下批处理计算的应用; Spark 是基于内存的分布式计算架构,提供更加丰富的数据集操作类型, 阅读全文
posted @ 2022-05-31 16:48 CHANG_09 阅读(183) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示