摘要:
十二、数据倾斜 12.1 数据倾斜表现 12.1.1 hadoop中的数据倾斜表现 1)有一个多几个Reduce卡住,卡在99.99%,一直不能结束 2)各种container报错OOM 3)异常的Reducer读写的数据量极大,至少远远超过其它正常的Reducer 4)伴随着数据倾斜,会出现任务被 阅读全文
2021年8月16日 #
摘要:
六、Flume 6.1 Flume的组成 6.1.1 taildir source 1)断点续传 2)Apache1.7以及CDH1.6产生 3)若遇到无断点续传功能的source怎么办? 自定义 4)taildir挂了怎么办? 不会丢失数据,因为有断点续传,可能会有重复数据 5)如何处理重复数据? 阅读全文