随笔分类 -  大数据面试题

摘要:秒杀系统秒杀系统基本面试被问烂了,网上资料也很多,基本整理了内容如下: 设计难点:并发量大,应用、数据库都承受不了。另外难控制超卖。 设计要点: 将请求尽量拦截在系统上游,html尽量静态化,部署到cdn上面。按钮及时设置为不可用,禁止用户重复提交请求。设置页面缓存,针对同一个页面和uid一段时间内 阅读全文
posted @ 2023-04-07 00:10 十一vs十一 阅读(288) 评论(0) 推荐(0) 编辑
摘要:第1章RDD概述1.1RDD引入之IO流 1.2什么是RDD 1.3RDD特性 A list of partitions多个分区,分区可以看成是数据集的基本组成单位对于 RDD 来说, 每个分区都会被一个计算任务处理, 并决定了并行计算的粒度。用户可以在创建 RDD 时指定 RDD 的分区数, 如 阅读全文
posted @ 2020-11-09 11:55 十一vs十一 阅读(122) 评论(0) 推荐(0) 编辑
摘要:1.列出安装hadoop流程步骤 a) 创建hadoop账号 b) 更改ip c) 安装java 更改/etc/profile 配置环境变量 d) 修改host文件域名 e) 安装ssh 配置无密码登录 f) 解压hadoop g) 配置hadoop conf下面的配置文件 h) Hadoop na 阅读全文
posted @ 2020-10-28 22:43 十一vs十一 阅读(538) 评论(0) 推荐(0) 编辑
摘要:数据抽取是什么 数据抽取是指从源数据源系统抽取目的数据源系统需要的数据。实际应用中,数据源较多采用的是关系数据库。 数据抽取的方式 一、全量抽取 增量抽取只抽取自上次抽取以来数据库中要抽取的表中新增或修改的数据。在ETL 使用过程中,增量抽取较全量抽取应用更广。如何捕获变化的数据是增量抽取的关键。对 阅读全文
posted @ 2020-10-28 22:34 十一vs十一 阅读(450) 评论(0) 推荐(0) 编辑
摘要:Flink高级 1、Flink Job的提交流程 2、Flink所谓"三层图"结构是哪几个"图"? 3、JobManger在集群中扮演了什么角色? 4、JobManger在集群启动过程中起到什么作用? 5、TaskManager在集群中扮演了什么角色? 6、TaskManager在集群启动过程中起到 阅读全文
posted @ 2020-10-28 17:39 十一vs十一 阅读(545) 评论(0) 推荐(0) 编辑
摘要:Flink中级 1、Flink是如何支持批流一体的? 2、Flink是如何做到高效的数据交换的? 3、Flink是如何做容错的? 4、Flink 分布式快照的原理是什么? 5、Flink是如何保证Exactly-once语义的? 6、Flink 的 kafka 连接器有什么特别的地方? 7、说说 F 阅读全文
posted @ 2020-10-28 17:37 十一vs十一 阅读(416) 评论(0) 推荐(0) 编辑
摘要:Flink初级 1、简单介绍一下 Flink 2、Flink相比传统的Spark Streaming区别? 3、Flink的组件栈有哪些? 4、Flink 的运行必须依赖 Hadoop组件吗? 5、你们的Flink集群规模多大? 6、Flink的基础编程模型了解吗? 7、Flink集群有哪些角色?各 阅读全文
posted @ 2020-10-28 17:33 十一vs十一 阅读(524) 评论(0) 推荐(0) 编辑
摘要:葵花宝典 flume 1. Flume组成,Put事务,Take事务 2. Flume拦截器 3. Flume Channel选择器 4. Flume监控器 5. Flume采集数据会丢失吗?(防止数据丢失的机制) 6. Flume内存 7. FileChannel优化 1. Flume组成,Put 阅读全文
posted @ 2020-10-28 17:32 十一vs十一 阅读(144) 评论(0) 推荐(0) 编辑
摘要:Mapreduce和spark是数据处理层两大核心,了解和学习大数据必须要重点掌握的环节,根据自己的经验和大家做一下知识的分享。 首先了解一下Mapreduce,它最本质的两个过程就是Map和Reduce,Map的应用在于我们需要数据一对一的元素的映射转换,比如说进行截取,进行过滤,或者任何的转换操 阅读全文
posted @ 2020-10-28 17:29 十一vs十一 阅读(794) 评论(0) 推荐(0) 编辑
摘要:Hadoop 1. hdfs读写流程 2. hdfs的体系结构 3. 一个datanode 宕机,怎么一个流程恢复 4. hadoop 的 namenode 宕机,怎么解决 5. namenode对元数据的管理 6. 元数据的checkpoint 7. yarn资源调度流程 8. hadoop中co 阅读全文
posted @ 2020-10-28 17:24 十一vs十一 阅读(434) 评论(0) 推荐(0) 编辑
摘要:Hadoop ,Hive Kafka, Spark Hbase Flink Storm Zookeeper HDFS YARN Flume Kudu Redis MR ETL设 阅读全文
posted @ 2020-10-18 18:19 十一vs十一 阅读(91) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示