2019 年 3月 15 日随笔档案 - 烽火连城516

2019年3月15日

摘要： Hive的面试题： 1.hive优化? a. 好的模型设计。b. 解决数据倾斜问题。c. 减少job数。 d. 设置合理的map reduce的task数，能有效提升性能。(比如，10w+级别的计算，用160个reduce，那是相当的浪费，1个足够)。 e. 自己动手写sql解决数据倾斜问题是个不错阅读全文

posted @ 2019-03-15 17:39 烽火连城516 阅读(666) 评论(0) 推荐(0) 编辑

Spark SQL

摘要： Spark SQL and DataFrame 1. 目标 1.1. 掌握Spark SQL的原理 1.2. 掌握DataFrame数据结构和使用方式 1.3. 熟练使用Spark SQL完成计算任务 2. Spark SQL 2.1. Spark SQL概述 2.1.1. 什么是Spark SQL 阅读全文

posted @ 2019-03-15 17:33 烽火连城516 阅读(283) 评论(0) 推荐(0) 编辑

Spark Streaming

摘要： Spark Streaming 1. 目标 1.1. 掌握Spark Streaming的原理 1.2. 熟练使用Spark Streaming完成流式计算任务 2. Spark Streaming介绍 2.1. Spark Streaming概述 2.1.1. 什么是Spark Streaming 阅读全文

posted @ 2019-03-15 17:31 烽火连城516 阅读(308) 评论(0) 推荐(0) 编辑

Spark RDD

摘要： Spark计算模型 1. 目标 1.1. 熟练使用RDD的算子完成计算 1.2. 掌握RDD的原理 2. 弹性分布式数据集RDD 2.1. RDD概述 2.1.1. 什么是RDD RDD（Resilient Distributed Dataset）叫做分布式数据集，是Spark中最基本的数据抽象，它阅读全文

posted @ 2019-03-15 17:22 烽火连城516 阅读(228) 评论(0) 推荐(0) 编辑

大数据面试

摘要： 1.kafka的message包括哪些信息？一个Kafka的Message由一个固定长度的header和一个可变长的消息体body组成，header部分由一个字节的magic(文件格式)和四个字节的CRC32(用于判断body消息体是否正常)构成。当magic的值为1的时候，会在magic和crc 阅读全文

posted @ 2019-03-15 17:10 烽火连城516 阅读(276) 评论(0) 推荐(0) 编辑

烽火连城516

公告