07 2021 档案
摘要:1、计算过程文件过多,reduce写入的分区也多。 解决方式是先写到一个临时的小文件中
阅读全文
摘要:1、数据集市和数据仓库的区别: https://blog.csdn.net/u011878191/article/details/49130733
阅读全文
摘要:https://zhuanlan.zhihu.com/p/165910220 在使用eventTime的时候如何处理乱序数据?我们知道,流处理从事件产生,到流经source,再到operator,中间是有一个过程和时间的。虽然大部分情况下,流到operator的数据都是按照事件产生的时间顺序来的,但
阅读全文
摘要:1、状态 Flink内置的很多算子,数据源source,数据存储sink都是有状态的,流中的数据都是buffer records,会保存一定的元素或者元数据。例如: ProcessWindowFunction会缓存输入流的数据,ProcessFunction会保存设置的定时器信息等等。 在Flink
阅读全文