07 2022 档案
摘要:问题1、在不借助其它表的情况下输出结果如下所示: 12345... 4950 解题思路:首先借助 space(49) 函数生成49个空格,然后用split去切分为49个空白数组,这样依赖,可以使用侧写函数对其进行处理陈带有序号的空白,这里的序号是我们要用到的 答案 select id + start
阅读全文
摘要:所谓“分流”,就是将一条数据流拆分成完全独立的两条、甚至多条流。也就是基于一个DataStream,得到完全平等的多个子DataStream,如下图所示。一般来说,会定义一些筛选条件,将符合条件的数据拣选出来放到对应的流里。 处理函数本身可以认为是一个转换算子,它的输出类型是单一的,处理之后得到的仍
阅读全文
摘要:1、查看原始注释字段的编码 发现字段编码不是utf8,但是注意:不建议修改整个库的编码方式,直接修改字段注释所在列信息的编码格式即可; 2、修改注释字段编码 use metastore; alter table COLUMNS_V2 modify column COMMENT varchar (25
阅读全文
摘要:窗口的计算处理,在实际应用中非常常见。对于一些比较复杂的需求,如果增量聚合函数无法满足,就需要考虑使用窗口处理函数这样的“大招”了。网站中一个非常经典的例子,就是实时统计一段时间内的热门url。例如,需要统计最近10秒钟内最热门的两个url链接,并且每5秒钟更新一次。这可以用一个滑动窗口来实现,而“
阅读全文
摘要:除了KeyedProcessFunction,另外一大类常用的处理函数,就是基于窗口的ProcessWindowFunction和ProcessAllWindowFunction了. 1、窗口处理函数的使用 进行窗口计算,可以直接调用现成的简单聚合方法(sum/max/min),也可以通过调用.re
阅读全文
摘要:Centos7 关闭防火墙 关闭防火墙 systemctl stop firewalld 关闭开机自启 systemctl disable firewalld.service Centos6 关闭防火墙 关闭防火墙 service iptables stop 关闭开机自启 chkconfig ipt
阅读全文
摘要:在Flink程序中,为了实现数据的聚合统计,或者开窗计算之类的功能,一般都要先用keyBy算子对数据流进行“按键分区”,得到一个KeyedStream。也就是指定一个键(key),按照它的哈希值(hash code)将数据分成不同的“组”,然后分配到不同的并行子任务上执行计算;这相当于做了一个逻辑分
阅读全文
摘要:1、联合(Union) 最简单的合流操作,就是直接将多条流合在一起,叫作流的“联合”(union),如下图所示。联合操作要求必须流中的数据类型必须相同,合并之后的新流会包括所有流中的元素,数据类型不变。这种合流方式非常简单粗暴,就像公路上多个车道汇在一起一样 在代码中,只要基于DataStream直
阅读全文
摘要:处理函数主要是定义数据流的转换操作,所以也可以把它归到转换算子中。在Flink中几乎所有转换算子都提供了对应的函数类接口,处理函数也不例外;它所对应的函数类,就叫作ProcessFunction。 1、处理函数的功能和使用 之前学习的转换算子,一般只是针对某种具体操作来定义的,能够拿到的信息比较有限
阅读全文
摘要:有了事件时间、水位线和窗口的相关知识,现在就可以系统性地讨论一下怎样处理迟到数据了。所谓的“迟到数据”(late data),是指某个水位线之后到来的数据,它的时间戳其实是在水位线之前的。所以只有在事件时间语义下,讨论迟到数据的处理才是有意义的。事件时间里用来表示时钟进展的就是水位线(waterma
阅读全文
摘要:增量聚合和全窗口函数的对比 已经了解了Window API中两类窗口函数的用法,下面先来做个简单的总结。增量聚合函数处理计算会更高效。举一个最简单的例子,对一组数据求和。大量的数据连续不断到来,全窗口函数只是把它们收集缓存起来,并没有处理;到了窗口要关闭、输出结果的时候,再遍历所有数据依次叠加,得到
阅读全文