上一页 1 ··· 6 7 8 9 10 11 12 13 14 ··· 18 下一页
摘要: 1、Hbase架构与数据存储 2、Hbase读写原理 3、Hbase 热点问题 读写热点解决办法: region预分区、rowkey前缀做MD5散列设计 4、Hbase调优 Scan 缓存 如果HBase的输入源是一个MapReduce Job,要确保输入的Scan的setCaching值要比默认值 阅读全文
posted @ 2020-04-02 09:30 再见傅里叶 阅读(482) 评论(0) 推荐(0) 编辑
摘要: https://blog.csdn.net/qq_37142346/article/details/81064721 阅读全文
posted @ 2020-04-01 09:14 再见傅里叶 阅读(128) 评论(0) 推荐(0) 编辑
摘要: 初学scala的人都会被Seq的各种操作符所迷惑。下面简单列举一下各个Seq操作符的区别。 4种操作符的区别和联系 :: 该方法被称为cons,意为构造,向队列的头部追加数据,创造新的列表。用法为x::list,其中x为加入到头部的元素,无论x是列表与否,它都只将成为新生成列表的第一个元素,也就是说 阅读全文
posted @ 2020-03-31 10:57 再见傅里叶 阅读(1686) 评论(0) 推荐(1) 编辑
摘要: https://blog.csdn.net/zhanglh046/article/details/78360762 阅读全文
posted @ 2020-03-31 10:24 再见傅里叶 阅读(164) 评论(0) 推荐(0) 编辑
摘要: HDFS读写流程,特别是客户端如何写数据到Datanode中,是面试必问!,一定要弄清楚! 1、block 这个大家应该知道,文件上传前需要分块,这个块就是block,一般为128MB,当然你可以去改,不过不推荐。因为块太小:寻址时间占比过高。块太大:Map任务数太少,作业执行速度变慢。它是最大的一 阅读全文
posted @ 2020-03-31 08:33 再见傅里叶 阅读(271) 评论(0) 推荐(0) 编辑
摘要: https://blog.csdn.net/qq_28900249/article/details/90346599 1、为什么要使用 kafka,为什么要使用消息队列 缓冲和削峰 解耦和扩展性 冗余 健壮性 异步通信 2、Kafka的acks参数对消息持久化的影响 往kafka写数据的时候,就可以 阅读全文
posted @ 2020-03-30 08:45 再见傅里叶 阅读(1717) 评论(0) 推荐(0) 编辑
摘要: https://www.cnblogs.com/smartloli/p/11922639.html 个人总结关键点: 为什么引入幂等性? Producer在生产发送消息时,难免会重复发送消息。Producer进行retry时会产生重试机制,发生消息重复发送。而引入幂等性后,重复发送只会生成一条有效的 阅读全文
posted @ 2020-03-30 08:36 再见傅里叶 阅读(604) 评论(0) 推荐(0) 编辑
摘要: SparkSession: SparkSession实质上是SQLContext和HiveContext的组合(未来可能还会加上StreamingContext),所以在SQLContext和HiveContext上可用的API在SparkSession上同样是可以使用的。 SparkSession 阅读全文
posted @ 2020-03-27 16:31 再见傅里叶 阅读(1776) 评论(0) 推荐(0) 编辑
摘要: 高阶函数在数据分析中使用到的频率是很高的,可能你辛苦一天写的函数代码,一个高阶函数轻松搞定。首先高阶函数肯定是函数,不同的是输入的参数和返回的值这两项中的一项必须是函数才能叫高阶函数。这个问题在回答的时候可以稍微拓展一下,介绍一下常用的的高阶函数,比如:map、flatMap、filter、redu 阅读全文
posted @ 2020-03-27 15:24 再见傅里叶 阅读(1101) 评论(0) 推荐(0) 编辑
摘要: Option类型表示一个值的存在与否,一般在程序中需要返回一个空对象的时候,使用Option类型,如果返回null,程序会引起异常,而Option就不会。使用Option减少触发NullPointerException异常的可能性。 阅读全文
posted @ 2020-03-27 15:16 再见傅里叶 阅读(697) 评论(0) 推荐(0) 编辑
上一页 1 ··· 6 7 8 9 10 11 12 13 14 ··· 18 下一页