博客园 首页 私信博主 显示目录 隐藏目录 管理 动画
摘要: import pymysql as mysql con = mysql.connect(host="127.0.0.1",port=3306,user="root",passwd="root",db="aaa",charset="utf8") mycursor = con.cursor() prin 阅读全文
posted @ 2022-06-28 20:15 CHANG_09 阅读(373) 评论(0) 推荐(0) 编辑
摘要: Flume面试题(约0.5w字) 介绍下Flume Flume架构 Flume有哪些Source 说下Flume事务机制 介绍下Flume采集数据的原理?底层实现? Flume如何保证数据的可靠性 Flume传输数据时如何保证数据一致性(可靠性) Flume拦截器 如何监控消费型Flume的消费情况 阅读全文
posted @ 2022-06-28 15:11 CHANG_09 阅读(83) 评论(0) 推荐(0) 编辑
摘要: Hive面试题(约3.3w字) 说下为什么要使用Hive?Hive的优缺点?Hive的作用是什么? Hive是Hadoop生态系统中比不可少的一个工具,它提供了一种SQL(结构化查询语言)方言,可以查询存储在Hadoop分布式文件系统(HDFS)中的数据或其他和Hadoop集成的文件系统,如MapR 阅读全文
posted @ 2022-06-28 15:10 CHANG_09 阅读(359) 评论(0) 推荐(0) 编辑
摘要: MapReduce部分 介绍下MapReduce MapReduce优缺点 MapReduce架构 MapReduce工作原理 MapReduce哪个阶段最费时间 MapReduce中的Combine是干嘛的?有什么好外? MapReduce为什么一定要有环型缓冲区 MapReduce为什么一定要有 阅读全文
posted @ 2022-06-28 15:09 CHANG_09 阅读(193) 评论(0) 推荐(0) 编辑
摘要: Zookeeper面试题(约2.6w字) 介绍下Zookeeper是什么? Zookeeper有什么作用?优缺点?有什么应用场景? Zookeeper的选举策略,leader和follower的区别? 介绍下Zookeeper选举算法 Zookeeper的节点类型有哪些?分别作用是什么? Zooke 阅读全文
posted @ 2022-06-28 15:09 CHANG_09 阅读(64) 评论(0) 推荐(0) 编辑
摘要: HDFS部分 HDFS文件写入和读取流程 HDFS组成架构 介绍下HDFS,说下HDFS优缺点,以及使用场景 HDFS作用 HDFS的容错机制 HDFS的存储机制 HDFS的副本机制 HDFS的常见数据格式,列式存储格式和行存储格式异同点,列式存储优点有哪些? HDFS如何保证数据不丢失? HDFS 阅读全文
posted @ 2022-06-28 15:08 CHANG_09 阅读(157) 评论(0) 推荐(0) 编辑
摘要: 数仓面试题(约3.6w字) 介绍下数据仓库 数仓的基本原理 数仓架构 数据仓库分层(层级划分),每层做什么?分层的好处? 数据分层是根据什么? 数仓分层的原则与思路 数仓建模常用模型吗?区别、优缺点? 星型模型和雪花模型的区别?应用场景?优劣对比 数仓建模有哪些方式? 数仓建模的流程? 维度建模的步 阅读全文
posted @ 2022-06-28 15:06 CHANG_09 阅读(476) 评论(1) 推荐(0) 编辑
摘要: 数据库面试题(约3.9w字) 数据库中的事务是什么,MySQL中是怎么实现的 MySQL事务的特性? 数据库事务的隔离级别?解决了什么问题?默认事务隔离级别? 脏读,幻读,不可重复读的定义 MySQL怎么实现可重复读? 数据库第三范式和第四范式区别? MySQL的存储引擎? 数据库有哪些锁? 说下悲 阅读全文
posted @ 2022-06-28 15:06 CHANG_09 阅读(66) 评论(0) 推荐(0) 编辑
摘要: Flink面试题(约4.7w字) Flink架构 Flink的窗口了解哪些,都有什么区别,有哪几种?如何定义? Flink窗口函数,时间语义相关的问题 介绍下Flink的watermark(水位线),watermark需要实现哪个实现类,在何处定义?有什么作用? Flink的窗口(实现)机制 说下F 阅读全文
posted @ 2022-06-28 15:05 CHANG_09 阅读(222) 评论(0) 推荐(0) 编辑
摘要: Spark面试题(约9.8w字) Spark的任务执行流程 Spark的运行流程 Spark的作业运行流程是怎么样的? Spark的特点 Spark源码中的任务调度 Spark作业调度 Spark的架构 Spark的使用场景 Spark on standalone模型、YARN架构模型(画架构图) 阅读全文
posted @ 2022-06-28 15:04 CHANG_09 阅读(286) 评论(0) 推荐(0) 编辑
摘要: HBase面试题(约2.8w字) 介绍下HBase HBase是一个分布式的,面向列的开源数据库。它不同于一般的关系数据库,是一个适合于非结构化数据存储的数据库。另一个不同的是HBase基于列的而不是基于行的模式。HBase使用和 BigTable非常相同的数据模型。用户存储数据行在一个表里。一个数 阅读全文
posted @ 2022-06-28 15:03 CHANG_09 阅读(325) 评论(0) 推荐(0) 编辑
摘要: Kafka面试题(约5.5w字) 介绍下Kafka,Kafka的作用?Kafka的组件?适用场景? Kafka是分布式发布-订阅消息系统, 它最初是由LinkedIn公司开发的,之后成为Apache项目的一部分, Kafka是一个分布式,可划分的,冗余备份的持久性的日志服务,它主要用于处理流式数据。 阅读全文
posted @ 2022-06-28 15:02 CHANG_09 阅读(322) 评论(0) 推荐(0) 编辑
摘要: YARN部分 介绍下YARN Yet Another Resource Negotiator,另一种资源协调者,是一种新的 Hadoop 资源管理器它是一个通用资源管理系统,可为上层应用提供统一的资源管理和调度它的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨大好处。 YARN有几个模块 阅读全文
posted @ 2022-06-28 14:58 CHANG_09 阅读(353) 评论(0) 推荐(0) 编辑
摘要: Hadoop基础 介绍下Hadoop 分布式系统架构。开发分布式程序。利用集群的威力进行高速运算和存储。 Hadoop的特点 高可靠性 高效性 高可扩展性 高容错性 低成本 说下Hadoop生态圈组件及其作用 1,HDFS (分布式文件系统) 2,资源管理器(YARN 和 mesos) 3,mapr 阅读全文
posted @ 2022-06-28 11:30 CHANG_09 阅读(230) 评论(0) 推荐(0) 编辑