摘要: 1.hive的数据传输 Hive 中的 Null 在底层是以“\N”来存储,而 MySQL 中的 Null 在底层就是 Null,为了 保证数据两端的一致性。在导出数据时采用--input-null-string 和--input-null-non-string 两个参 数。导入数据时采用--nul 阅读全文
posted @ 2020-09-13 21:59 小小分析猿 阅读(268) 评论(0) 推荐(0) 编辑
摘要: 1.Channel的选择 memory channel 速度快,但可能会造成数据丢失 file channel 不会造成数据丢失,安全性高,但速度相对较慢 也可以选择kafka channel ,省去了sink 阶段,提高传输效率 2.FileChannel 优化 通过配置 dataDirs 指向多 阅读全文
posted @ 2020-09-13 21:51 小小分析猿 阅读(248) 评论(0) 推荐(0) 编辑
摘要: 1.Kafka 压测 用 Kafka 官方自带的脚本,对 Kafka 进行压测。Kafka 压测时,可以查看到哪个地方出 现了瓶颈(CPU,内存,网络 IO)。一般都是网络 IO 达到瓶颈。 kafka-consumer-perf-test.sh kafka-producer-perf-test.s 阅读全文
posted @ 2020-09-13 21:36 小小分析猿 阅读(202) 评论(0) 推荐(0) 编辑