2022 年 6月 28 日随笔档案 - CHANG_09

2022年6月28日

摘要： import pymysql as mysql con = mysql.connect(host="127.0.0.1",port=3306,user="root",passwd="root",db="aaa",charset="utf8") mycursor = con.cursor() prin 阅读全文

posted @ 2022-06-28 20:15 CHANG_09 阅读(373) 评论(0) 推荐(0) 编辑

大数据面试题V3.0 -- Flume面试题

摘要： Flume面试题（约0.5w字）介绍下Flume Flume架构 Flume有哪些Source 说下Flume事务机制介绍下Flume采集数据的原理？底层实现？ Flume如何保证数据的可靠性 Flume传输数据时如何保证数据一致性（可靠性） Flume拦截器如何监控消费型Flume的消费情况阅读全文

posted @ 2022-06-28 15:11 CHANG_09 阅读(83) 评论(0) 推荐(0) 编辑

大数据面试题V3.0 -- Hive面试题（约3.3w字）

摘要： Hive面试题（约3.3w字）说下为什么要使用Hive?Hive的优缺点?Hive的作用是什么? Hive是Hadoop生态系统中比不可少的一个工具，它提供了一种SQL(结构化查询语言)方言，可以查询存储在Hadoop分布式文件系统（HDFS）中的数据或其他和Hadoop集成的文件系统，如MapR 阅读全文

posted @ 2022-06-28 15:10 CHANG_09 阅读(359) 评论(0) 推荐(0) 编辑

大数据面试题V3.0 -- MapReduce部分

摘要： MapReduce部分介绍下MapReduce MapReduce优缺点 MapReduce架构 MapReduce工作原理 MapReduce哪个阶段最费时间 MapReduce中的Combine是干嘛的?有什么好外? MapReduce为什么一定要有环型缓冲区 MapReduce为什么一定要有阅读全文

posted @ 2022-06-28 15:09 CHANG_09 阅读(193) 评论(0) 推荐(0) 编辑

大数据面试题V3.0 -- Zookeeper面试题

摘要： Zookeeper面试题（约2.6w字）介绍下Zookeeper是什么? Zookeeper有什么作用?优缺点?有什么应用场景? Zookeeper的选举策略，leader和follower的区别? 介绍下Zookeeper选举算法 Zookeeper的节点类型有哪些?分别作用是什么? Zooke 阅读全文

posted @ 2022-06-28 15:09 CHANG_09 阅读(64) 评论(0) 推荐(0) 编辑

大数据面试题V3.0 -- HDFS部分

摘要： HDFS部分 HDFS文件写入和读取流程 HDFS组成架构介绍下HDFS，说下HDFS优缺点，以及使用场景 HDFS作用 HDFS的容错机制 HDFS的存储机制 HDFS的副本机制 HDFS的常见数据格式，列式存储格式和行存储格式异同点，列式存储优点有哪些? HDFS如何保证数据不丢失? HDFS 阅读全文

posted @ 2022-06-28 15:08 CHANG_09 阅读(157) 评论(0) 推荐(0) 编辑

大数据面试题V3.0 -- 数仓面试题（约3.6w字）

摘要：数仓面试题（约3.6w字）介绍下数据仓库数仓的基本原理数仓架构数据仓库分层(层级划分)，每层做什么?分层的好处? 数据分层是根据什么? 数仓分层的原则与思路数仓建模常用模型吗?区别、优缺点? 星型模型和雪花模型的区别?应用场景?优劣对比数仓建模有哪些方式? 数仓建模的流程? 维度建模的步阅读全文

posted @ 2022-06-28 15:06 CHANG_09 阅读(476) 评论(1) 推荐(0) 编辑

大数据面试题V3.0 -- 数据库面试题

摘要：数据库面试题（约3.9w字）数据库中的事务是什么，MySQL中是怎么实现的 MySQL事务的特性? 数据库事务的隔离级别?解决了什么问题?默认事务隔离级别? 脏读，幻读，不可重复读的定义 MySQL怎么实现可重复读? 数据库第三范式和第四范式区别? MySQL的存储引擎? 数据库有哪些锁? 说下悲阅读全文

posted @ 2022-06-28 15:06 CHANG_09 阅读(66) 评论(0) 推荐(0) 编辑

大数据面试题V3.0 -- Flink面试题

摘要： Flink面试题（约4.7w字） Flink架构 Flink的窗口了解哪些，都有什么区别，有哪几种?如何定义? Flink窗口函数，时间语义相关的问题介绍下Flink的watermark(水位线)，watermark需要实现哪个实现类，在何处定义?有什么作用? Flink的窗口(实现)机制说下F 阅读全文

posted @ 2022-06-28 15:05 CHANG_09 阅读(222) 评论(0) 推荐(0) 编辑

大数据面试题V3.0 -- Spark面试题（约9.8w字）

摘要： Spark面试题（约9.8w字） Spark的任务执行流程 Spark的运行流程 Spark的作业运行流程是怎么样的? Spark的特点 Spark源码中的任务调度 Spark作业调度 Spark的架构 Spark的使用场景 Spark on standalone模型、YARN架构模型(画架构图) 阅读全文

posted @ 2022-06-28 15:04 CHANG_09 阅读(286) 评论(0) 推荐(0) 编辑

大数据面试题V3.0 -- HBase面试题（约2.8w字）

摘要： HBase面试题（约2.8w字）介绍下HBase HBase是一个分布式的，面向列的开源数据库。它不同于一般的关系数据库,是一个适合于非结构化数据存储的数据库。另一个不同的是HBase基于列的而不是基于行的模式。HBase使用和 BigTable非常相同的数据模型。用户存储数据行在一个表里。一个数阅读全文

posted @ 2022-06-28 15:03 CHANG_09 阅读(325) 评论(0) 推荐(0) 编辑

大数据面试题V3.0 -- Kafka面试题

摘要： Kafka面试题（约5.5w字）介绍下Kafka，Kafka的作用?Kafka的组件?适用场景? Kafka是分布式发布-订阅消息系统，它最初是由LinkedIn公司开发的，之后成为Apache项目的一部分， Kafka是一个分布式，可划分的，冗余备份的持久性的日志服务，它主要用于处理流式数据。阅读全文

posted @ 2022-06-28 15:02 CHANG_09 阅读(322) 评论(0) 推荐(0) 编辑

大数据面试题V3.0 -- YARN部分

摘要： YARN部分介绍下YARN Yet Another Resource Negotiator，另一种资源协调者,是一种新的 Hadoop 资源管理器它是一个通用资源管理系统，可为上层应用提供统一的资源管理和调度它的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨大好处。 YARN有几个模块阅读全文

posted @ 2022-06-28 14:58 CHANG_09 阅读(353) 评论(0) 推荐(0) 编辑

大数据面试题V3.0 -- Hadoop基础

摘要： Hadoop基础介绍下Hadoop 分布式系统架构。开发分布式程序。利用集群的威力进行高速运算和存储。 Hadoop的特点高可靠性高效性高可扩展性高容错性低成本说下Hadoop生态圈组件及其作用 1，HDFS (分布式文件系统） 2，资源管理器（YARN 和 mesos） 3，mapr 阅读全文

posted @ 2022-06-28 11:30 CHANG_09 阅读(230) 评论(0) 推荐(0) 编辑

CHANG_09

公告