摘要:
大数据相关试题 面试篇 1、简答说一下hadoop的map reduce编程模型 首先map task会从本地文件系统读取数据,转换成key value形式的键值对集合 使用的是hadoop内置的数据类型,比如longwritable、text等 将键值对集合输入mapper进行业务处理过程,将其转 阅读全文
摘要:
大数据面试题:大数据性能调优之分配更多资源 分配更多资源:性能调优的王道,就是增加和分配更多的资源,性能和速度上的提升,是显而易见的;基本上,在一定范围之内,增加资源与性能的提升,是成正比的;写完了一个复杂的spark作业之后,进行性能调优的时候,首先第一步,我觉得,就是要来调节最优的资源配置;在这 阅读全文
摘要:
Spark core面试篇03 1.Spark使用parquet文件存储格式能带来哪些好处? 1) 如果说HDFS 是大数据时代分布式文件系统首选标准,那么parquet则是整个大数据时代文件存储格式实时首选标准 2) 速度更快:从使用spark sql操作普通文件CSV和parquet文件速度对比 阅读全文
摘要:
Spark on Yarn面试篇04 1.MRV1有哪些不足? 1)可扩展性(对于变化的应付能力) a) JobTracker内存中保存用户作业的信息 b) JobTracker使用的是粗粒度的锁 2)可靠性和可用性 a) JobTracker失效会多事集群中所有的运行作业,用户需手动重新提交和恢复 阅读全文
摘要:
Spark core面试篇02 1.cache后面能不能接其他算子,它是不是action操作? 答:cache可以接其他算子,但是接了算子之后,起不到缓存应有的效果,因为会重新触发cache。 cache不是action操作 2.reduceByKey是不是action? 答:不是,很多人都会以为是 阅读全文
摘要:
Spark Core面试篇01 一、简答题 1.Spark master使用zookeeper进行HA的,有哪些元数据保存在Zookeeper? 答:spark通过这个参数spark.deploy.zookeeper.dir指定master元数据在zookeeper中保存的位置,包括Worker,D 阅读全文
摘要:
大数据基础部分面试题: 一.你了解Hadoop吗?讲一下Hadoop中HDFS的读写原理。 读: 客户端调用FileSystem的open方法,来打开希望读取的文件。 FileSystem通过Rpc与namenode通信,namenode将获取到的信息整理,并将文件的所有内容发送给FileSyste 阅读全文
摘要:
Java面试题:java的垮平台原理 为什么要跨平台使用????? 其实说白了就是个操作系统支持的指令集是不一样的。我们的程序需要再不同的操作系统上运行这些代码。 但是不要说jvm是跨平台的,而真正跨平台的是 Java 程序,而不是 JVM。JVM 是用 C/C++ 开发的,是编译后的机器码,不能跨 阅读全文