摘要: Hive的面试题: 1.hive优化? a. 好的模型设计。b. 解决数据倾斜问题。c. 减少job数。 d. 设置合理的map reduce的task数,能有效提升性能。(比如,10w+级别的计算,用160个reduce,那是相当的浪费,1个足够)。 e. 自己动手写sql解决数据倾斜问题是个不错 阅读全文
posted @ 2019-03-15 17:39 烽火连城516 阅读(666) 评论(0) 推荐(0) 编辑
摘要: Spark SQL and DataFrame 1. 目标 1.1. 掌握Spark SQL的原理 1.2. 掌握DataFrame数据结构和使用方式 1.3. 熟练使用Spark SQL完成计算任务 2. Spark SQL 2.1. Spark SQL概述 2.1.1. 什么是Spark SQL 阅读全文
posted @ 2019-03-15 17:33 烽火连城516 阅读(283) 评论(0) 推荐(0) 编辑
摘要: Spark Streaming 1. 目标 1.1. 掌握Spark Streaming的原理 1.2. 熟练使用Spark Streaming完成流式计算任务 2. Spark Streaming介绍 2.1. Spark Streaming概述 2.1.1. 什么是Spark Streaming 阅读全文
posted @ 2019-03-15 17:31 烽火连城516 阅读(308) 评论(0) 推荐(0) 编辑
摘要: Spark计算模型 1. 目标 1.1. 熟练使用RDD的算子完成计算 1.2. 掌握RDD的原理 2. 弹性分布式数据集RDD 2.1. RDD概述 2.1.1. 什么是RDD RDD(Resilient Distributed Dataset)叫做分布式数据集,是Spark中最基本的数据抽象,它 阅读全文
posted @ 2019-03-15 17:22 烽火连城516 阅读(228) 评论(0) 推荐(0) 编辑
摘要: 1.kafka的message包括哪些信息? 一个Kafka的Message由一个固定长度的header和一个可变长的消息体body组成,header部分由一个字节的magic(文件格式)和四个字节的CRC32(用于判断body消息体是否正常)构成。当magic的值为1的时候,会在magic和crc 阅读全文
posted @ 2019-03-15 17:10 烽火连城516 阅读(276) 评论(0) 推荐(0) 编辑