2019年7月23日

大数据面试题目录

摘要: 第1部分 选择题 1.1 Hadoop选择题 1.1.1 Hdfs 1. 下面哪个程序负责 HDFS 数据存储? a)NameNode b)Jobtracker c)Datanode d)secondaryNameNode e)tasktracker 2. HDfS 中的 block 默认保存几份? 阅读全文
posted @ 2019-07-23 17:18 ~handsome 阅读(1719) 评论(0) 推荐(0) 编辑

大数据面试题以及答案整理(一)

摘要: kafka的message包括哪些信息 一个Kafka的Message由一个固定长度的header和一个变长的消息体body组成header部分由一个字节的magic(文件格式)和四个字节的CRC32(用于判断body消息体是否正常)构成。当magic的值为1的时候,会在magic和crc32之间多 阅读全文
posted @ 2019-07-23 17:15 ~handsome 阅读(9144) 评论(0) 推荐(1) 编辑

工作流调度器之Azkaban

摘要: Azkaban 1. 工作流调度器概述 1.1. 为什么需要工作流调度系统 一个完整的数据分析系统通常都是由大量任务单元组成:shell脚本程序,java程序,mapreduce程序、hive脚本等 各任务单元之间存在时间先后及前后依赖关系 为了很好地组织起这样的复杂执行计划,需要一个工作流调度系统 阅读全文
posted @ 2019-07-23 17:13 ~handsome 阅读(218) 评论(0) 推荐(0) 编辑

VI编辑

摘要: 1.1 vi 文本编辑器 1.1.1 vi 的两种模式 1、命令模式 vi 的默认进入状态(不可以输入字符,但可以对字符进行操作,复制,移动、删除等操作) 2、输入模式 输入字符状态(只可以输入和使用del 和退格backspace键删除文字) 1.1.2 vi 的启动和退出 #vi file 编辑 阅读全文
posted @ 2019-07-23 17:10 ~handsome 阅读(195) 评论(0) 推荐(0) 编辑

shell

摘要: 一、Shell的HelloWorld #!/bin/bash echo “HelloWorld!”#! 是一个约定的标记,它告诉系统这个脚本需要什么解释器来执行,即使用哪一种 Shell。 运行方法有两种: ./helloworld.sh /bin/sh helloworld.sh(这种运行方式是作 阅读全文
posted @ 2019-07-23 17:08 ~handsome 阅读(223) 评论(0) 推荐(0) 编辑

大数据面试5

摘要: 1、简答说一下hadoop的map-reduce编程模型 首先map task会从本地文件系统读取数据,转换成key-value形式的键值对集合 使用的是hadoop内置的数据类型,比如longwritable、text等 将键值对集合输入mapper进行业务处理过程,将其转换成需要的key-val 阅读全文
posted @ 2019-07-23 17:06 ~handsome 阅读(145) 评论(0) 推荐(0) 编辑

大数据面试4

摘要: 1.MRV1有哪些不足? 1)可扩展性(对于变化的应付能力) a)JobTracker内存中保存用户作业的信息 b)JobTracker使用的是粗粒度的锁 2)可靠性和可用性 a)JobTracker失效会多事集群中所有的运行作业,用户需手动重新提交和恢复工作流 3)对不同编程模型的支持 Hadoo 阅读全文
posted @ 2019-07-23 17:05 ~handsome 阅读(323) 评论(0) 推荐(0) 编辑

大数据面试3

摘要: 1.Spark使用parquet文件存储格式能带来哪些好处? 1) 如果说HDFS 是大数据时代分布式文件系统首选标准,那么parquet则是整个大数据时代文件存储格式实时首选标准 2) 速度更快:从使用spark sql操作普通文件CSV和parquet文件速度对比上看,绝大多数情况会比使用csv 阅读全文
posted @ 2019-07-23 17:04 ~handsome 阅读(180) 评论(0) 推荐(0) 编辑

大数据面试2

摘要: 1.cache后面能不能接其他算子,它是不是action操作? 答:cache可以接其他算子,但是接了算子之后,起不到缓存应有的效果,因为会重新触发cache。 cache不是action操作 2.reduceByKey是不是action? 答:不是,很多人都会以为是action,reduce rd 阅读全文
posted @ 2019-07-23 17:03 ~handsome 阅读(213) 评论(0) 推荐(0) 编辑

大数据面试1

摘要: 1.Spark master使用zookeeper进行HA的,有哪些元数据保存在Zookeeper? 答:spark通过这个参数spark.deploy.zookeeper.dir指定master元数据在zookeeper中保存的位置,包括Worker,Driver和Application以及Exe 阅读全文
posted @ 2019-07-23 17:02 ~handsome 阅读(206) 评论(0) 推荐(0) 编辑

HIve字符串函数

摘要: 1. 字符 ascii 码函数:ascii 语法: ascii(string str) 返回值: int 说明:返回字符串 str 中第一个字符的ascii 码 举例: hive> select ascii('ba') from test; OK 98 2. base64 字符串 语法: base6 阅读全文
posted @ 2019-07-23 16:59 ~handsome 阅读(16749) 评论(1) 推荐(2) 编辑