2019 年 7月 23 日随笔档案 - ~handsome

大数据面试题目录

摘要：第1部分选择题 1.1 Hadoop选择题 1.1.1 Hdfs 1. 下面哪个程序负责 HDFS 数据存储？ a)NameNode b)Jobtracker c)Datanode d)secondaryNameNode e)tasktracker 2. HDfS 中的 block 默认保存几份？阅读全文

posted @ 2019-07-23 17:18 ~handsome 阅读(1719) 评论(0) 推荐(0) 编辑

大数据面试题以及答案整理（一）

摘要： kafka的message包括哪些信息一个Kafka的Message由一个固定长度的header和一个变长的消息体body组成header部分由一个字节的magic(文件格式)和四个字节的CRC32(用于判断body消息体是否正常)构成。当magic的值为1的时候，会在magic和crc32之间多阅读全文

posted @ 2019-07-23 17:15 ~handsome 阅读(9144) 评论(0) 推荐(1) 编辑

工作流调度器之Azkaban

摘要： Azkaban 1. 工作流调度器概述 1.1. 为什么需要工作流调度系统一个完整的数据分析系统通常都是由大量任务单元组成：shell脚本程序，java程序，mapreduce程序、hive脚本等各任务单元之间存在时间先后及前后依赖关系为了很好地组织起这样的复杂执行计划，需要一个工作流调度系统阅读全文

posted @ 2019-07-23 17:13 ~handsome 阅读(218) 评论(0) 推荐(0) 编辑

VI编辑

摘要： 1.1 vi 文本编辑器 1.1.1 vi 的两种模式 1、命令模式 vi 的默认进入状态（不可以输入字符，但可以对字符进行操作，复制，移动、删除等操作） 2、输入模式输入字符状态（只可以输入和使用del 和退格backspace键删除文字） 1.1.2 vi 的启动和退出 #vi file 编辑阅读全文

posted @ 2019-07-23 17:10 ~handsome 阅读(195) 评论(0) 推荐(0) 编辑

shell

摘要：一、Shell的HelloWorld #!/bin/bash echo “HelloWorld!”#! 是一个约定的标记，它告诉系统这个脚本需要什么解释器来执行，即使用哪一种 Shell。运行方法有两种： ./helloworld.sh /bin/sh helloworld.sh（这种运行方式是作阅读全文

posted @ 2019-07-23 17:08 ~handsome 阅读(223) 评论(0) 推荐(0) 编辑

大数据面试5

摘要： 1、简答说一下hadoop的map-reduce编程模型首先map task会从本地文件系统读取数据，转换成key-value形式的键值对集合使用的是hadoop内置的数据类型，比如longwritable、text等将键值对集合输入mapper进行业务处理过程，将其转换成需要的key-val 阅读全文

posted @ 2019-07-23 17:06 ~handsome 阅读(145) 评论(0) 推荐(0) 编辑

大数据面试4

摘要： 1.MRV1有哪些不足？ 1)可扩展性（对于变化的应付能力） a)JobTracker内存中保存用户作业的信息 b)JobTracker使用的是粗粒度的锁 2)可靠性和可用性 a)JobTracker失效会多事集群中所有的运行作业，用户需手动重新提交和恢复工作流 3)对不同编程模型的支持 Hadoo 阅读全文

posted @ 2019-07-23 17:05 ~handsome 阅读(323) 评论(0) 推荐(0) 编辑

大数据面试3

摘要： 1.Spark使用parquet文件存储格式能带来哪些好处？ 1) 如果说HDFS 是大数据时代分布式文件系统首选标准，那么parquet则是整个大数据时代文件存储格式实时首选标准 2) 速度更快：从使用spark sql操作普通文件CSV和parquet文件速度对比上看，绝大多数情况会比使用csv 阅读全文

posted @ 2019-07-23 17:04 ~handsome 阅读(180) 评论(0) 推荐(0) 编辑

大数据面试2

摘要： 1.cache后面能不能接其他算子,它是不是action操作？答：cache可以接其他算子，但是接了算子之后，起不到缓存应有的效果，因为会重新触发cache。 cache不是action操作 2.reduceByKey是不是action？答：不是，很多人都会以为是action，reduce rd 阅读全文

posted @ 2019-07-23 17:03 ~handsome 阅读(213) 评论(0) 推荐(0) 编辑

大数据面试1

摘要： 1.Spark master使用zookeeper进行HA的，有哪些元数据保存在Zookeeper？答：spark通过这个参数spark.deploy.zookeeper.dir指定master元数据在zookeeper中保存的位置，包括Worker，Driver和Application以及Exe 阅读全文

posted @ 2019-07-23 17:02 ~handsome 阅读(206) 评论(0) 推荐(0) 编辑

HIve字符串函数

摘要： 1. 字符 ascii 码函数:ascii 语法: ascii(string str) 返回值: int 说明:返回字符串 str 中第一个字符的ascii 码举例: hive> select ascii('ba') from test; OK 98 2. base64 字符串语法: base6 阅读全文

posted @ 2019-07-23 16:59 ~handsome 阅读(16749) 评论(1) 推荐(2) 编辑