零下-八度 - 博客园

摘要： Hadoop面试常见的问题详解阅读全文

posted @ 2018-12-09 18:58 零下-八度阅读(332) 评论(0) 推荐(0) 编辑

2020年6月29日

摘要： scala 一: scala基础 1 概念 Scala就是一门语言, 是spark的框架语言. 继承了面向对象编程和函数式编程. Scala是一种多范式的编程语言，其设计的初衷是要集成面向对象编程和函数式编程的各种特性。Scala运行于Java平台（Java虚拟机），并兼容现有的Java程序。htt 阅读全文

posted @ 2020-06-29 18:17 零下-八度阅读(477) 评论(0) 推荐(0) 编辑

Typora的使用

摘要： Typora的日常使用方法原文地址：https://www.jianshu.com/p/a6a6a22e9393 ” Markdown 是一种轻量级标记语言，创始人是约翰·格鲁伯（John Gruber）。它允许人们 “使用易读易写的纯文本格式编写文档，然后转换成有效的 HTML 文档。” 1. 阅读全文

posted @ 2020-06-29 18:02 零下-八度阅读(154) 评论(0) 推荐(0) 编辑

2018年12月11日

hive的总结

摘要： hive的一些总结什么是hive：可以将结构化的数据文件映射为一张数据库表，并提供类 SQL 查询功能。本质：将SQL转换为 MapReduce 程序。主要用途：用来做离线数据分析，比直接用MapReduce 开发效率更高。为什么使用Hive：直接使用 Hadoop MapReduce 阅读全文

posted @ 2018-12-11 22:02 零下-八度阅读(135) 评论(0) 推荐(0) 编辑

SparkStreaming

摘要： SparkStreaming 阅读全文

posted @ 2018-12-11 01:41 零下-八度阅读(267) 评论(0) 推荐(0) 编辑

2018年12月10日

Spark

摘要： spark的相关问题：一、 spark中的RDD是什么，有哪些特性 RDD（Resilient Distributed Dataset）叫做分布式数据集，是Spark中最基本的数据抽象，它代表一个不可变，可分区，里面元素可并行计算的集合。 Dataset：就是一个集合，用于存放数据的。阅读全文

posted @ 2018-12-10 13:34 零下-八度阅读(123) 评论(0) 推荐(0) 编辑

动态上下线集群详解

摘要：动态上下线集群的具体操作阅读全文

posted @ 2018-12-10 12:08 零下-八度阅读(866) 评论(0) 推荐(0) 编辑

kafka

摘要：一、kafka消息保证生产的信息不丢失金和重复消费问题 1. 使用同步模式的时候，有3中状态保证消息被安全生产，在配置为1（只保证写入leader成功）的话，如果刚好leader partition挂了，数据就是丢失。 2. 还有一种情况可能会丢失小时，就是使用异步模式的时候，当缓冲区满了，如果阅读全文

posted @ 2018-12-10 11:45 零下-八度阅读(112) 评论(0) 推荐(0) 编辑

hive的相关调优

摘要： 1. 关于join中出现数倾斜的操作 2. 关于maojoin的操作 3. 对于bucket join的操作 4. 关于where和join的操作 5. 关于group by的操作阅读全文

posted @ 2018-12-10 02:00 零下-八度阅读(684) 评论(0) 推荐(0) 编辑

数据仓库

摘要： 1. 数据仓库分层阅读全文

posted @ 2018-12-10 01:03 零下-八度阅读(210) 评论(0) 推荐(0) 编辑

HBase面试相关的问题

摘要： 1. HBase为什么查询快 2. HRegionServer中数据写流程 3. HBase rowkey设计原则阅读全文

posted @ 2018-12-10 00:43 零下-八度阅读(216) 评论(0) 推荐(0) 编辑

公告