2022 年 7月随笔档案 - 晓枫的春天

hive posexplode 函数的使用举例

摘要：问题1、在不借助其它表的情况下输出结果如下所示： 12345... 4950 解题思路：首先借助 space(49) 函数生成49个空格，然后用split去切分为49个空白数组，这样依赖，可以使用侧写函数对其进行处理陈带有序号的空白，这里的序号是我们要用到的答案 select id + start 阅读全文

posted @ 2022-07-29 14:25 晓枫的春天阅读(701) 评论(0) 推荐(1) 编辑

Flink 分流

摘要：所谓“分流”，就是将一条数据流拆分成完全独立的两条、甚至多条流。也就是基于一个DataStream，得到完全平等的多个子DataStream，如下图所示。一般来说，会定义一些筛选条件，将符合条件的数据拣选出来放到对应的流里。处理函数本身可以认为是一个转换算子，它的输出类型是单一的，处理之后得到的仍阅读全文

posted @ 2022-07-28 14:41 晓枫的春天阅读(505) 评论(2) 推荐(0) 编辑

hive 字段注释中文乱码

摘要：1、查看原始注释字段的编码发现字段编码不是utf8,但是注意：不建议修改整个库的编码方式，直接修改字段注释所在列信息的编码格式即可； 2、修改注释字段编码 use metastore; alter table COLUMNS_V2 modify column COMMENT varchar (25 阅读全文

posted @ 2022-07-27 05:45 晓枫的春天阅读(214) 评论(0) 推荐(0) 编辑

处理函数应用案例——TopN

摘要：窗口的计算处理，在实际应用中非常常见。对于一些比较复杂的需求，如果增量聚合函数无法满足，就需要考虑使用窗口处理函数这样的“大招”了。网站中一个非常经典的例子，就是实时统计一段时间内的热门url。例如，需要统计最近10秒钟内最热门的两个url链接，并且每5秒钟更新一次。这可以用一个滑动窗口来实现，而“ 阅读全文

posted @ 2022-07-26 15:57 晓枫的春天阅读(163) 评论(0) 推荐(0) 编辑

窗口处理函数

摘要：除了KeyedProcessFunction，另外一大类常用的处理函数，就是基于窗口的ProcessWindowFunction和ProcessAllWindowFunction了. 1、窗口处理函数的使用进行窗口计算，可以直接调用现成的简单聚合方法（sum/max/min）,也可以通过调用.re 阅读全文

posted @ 2022-07-25 15:09 晓枫的春天阅读(456) 评论(0) 推荐(0) 编辑

Centos 关闭防火墙

摘要：Centos7 关闭防火墙关闭防火墙 systemctl stop firewalld 关闭开机自启 systemctl disable firewalld.service Centos6 关闭防火墙关闭防火墙 service iptables stop 关闭开机自启 chkconfig ipt 阅读全文

posted @ 2022-07-19 21:40 晓枫的春天阅读(71) 评论(0) 推荐(0) 编辑

按键分区处理函数（KeyedProcessFunction）

摘要：在Flink程序中，为了实现数据的聚合统计，或者开窗计算之类的功能，一般都要先用keyBy算子对数据流进行“按键分区”，得到一个KeyedStream。也就是指定一个键（key），按照它的哈希值（hash code）将数据分成不同的“组”，然后分配到不同的并行子任务上执行计算；这相当于做了一个逻辑分阅读全文

posted @ 2022-07-12 09:15 晓枫的春天阅读(2015) 评论(0) 推荐(0) 编辑

Flink 基本合流操作

摘要：1、联合（Union）最简单的合流操作，就是直接将多条流合在一起，叫作流的“联合”（union），如下图所示。联合操作要求必须流中的数据类型必须相同，合并之后的新流会包括所有流中的元素，数据类型不变。这种合流方式非常简单粗暴，就像公路上多个车道汇在一起一样在代码中，只要基于DataStream直阅读全文

posted @ 2022-07-11 10:00 晓枫的春天阅读(264) 评论(0) 推荐(0) 编辑

基本处理函数（ProcessFunction）

摘要：处理函数主要是定义数据流的转换操作，所以也可以把它归到转换算子中。在Flink中几乎所有转换算子都提供了对应的函数类接口，处理函数也不例外；它所对应的函数类，就叫作ProcessFunction。 1、处理函数的功能和使用之前学习的转换算子，一般只是针对某种具体操作来定义的，能够拿到的信息比较有限阅读全文

posted @ 2022-07-07 12:51 晓枫的春天阅读(291) 评论(0) 推荐(0) 编辑

处理迟到数据

摘要：有了事件时间、水位线和窗口的相关知识，现在就可以系统性地讨论一下怎样处理迟到数据了。所谓的“迟到数据”（late data），是指某个水位线之后到来的数据，它的时间戳其实是在水位线之前的。所以只有在事件时间语义下，讨论迟到数据的处理才是有意义的。事件时间里用来表示时钟进展的就是水位线（waterma 阅读全文

posted @ 2022-07-06 12:05 晓枫的春天阅读(214) 评论(0) 推荐(0) 编辑

增量聚合和全窗口函数的结合使用

摘要：增量聚合和全窗口函数的对比已经了解了Window API中两类窗口函数的用法，下面先来做个简单的总结。增量聚合函数处理计算会更高效。举一个最简单的例子，对一组数据求和。大量的数据连续不断到来，全窗口函数只是把它们收集缓存起来，并没有处理；到了窗口要关闭、输出结果的时候，再遍历所有数据依次叠加，得到阅读全文

posted @ 2022-07-04 12:37 晓枫的春天阅读(342) 评论(0) 推荐(0) 编辑

滴水穿石不是靠力，而是因为不舍昼夜。

07 2022 档案

公告

搜索

常用链接

随笔分类

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论