上一页 1 ··· 31 32 33 34 35 36 37 38 39 ··· 45 下一页
摘要: 滚动聚合算子 常见的滚动聚合算子sum,min,maxminBy,maxBy作用 KeyedStream的每一个支流做聚合。执行完成后,会将聚合的结果合成一个流返回,所以结果都是DataStream参数 如果流中存储的是POJO或者scala的样例类, 参数使用字段名 如果流中存储的是元组, 参数就 阅读全文
posted @ 2022-03-03 12:17 晓枫的春天 阅读(142) 评论(0) 推荐(0) 编辑
摘要: 查找每个用户在Facebook上的受欢迎程度百分比。受欢迎程度百分比定义为:用户拥有的朋友总数除以平台上的用户总数,然后乘以100转换成一个百分比。 输出每个用户及其受欢迎程度百分比。按用户id升序排列。 “id1”和“id2”列是成对的朋友。表如下: id1 id2 1 2 1 3 1 4 1 5 阅读全文
posted @ 2022-03-03 12:14 晓枫的春天 阅读(90) 评论(0) 推荐(0) 编辑
摘要: 需求 遍历字符串,并以一个字符一行的形式显示出来,如遍历"a,b,c,d,e,f"字符串,使其每个字符都生成一行记录; 思路分析 在hive中可以借助posexplode()函数对数组结构的数据进行(xing)行(hang)转列,并对数组中每一位都生成一个索引值.该函数强大之处就是为数组中每一位生成 阅读全文
posted @ 2022-03-02 12:54 晓枫的春天 阅读(900) 评论(0) 推荐(0) 编辑
摘要: TransForm 简介 转换算子可以把一个或多个DataStream转成一个新的DataStream.程序可以把多个复杂的转换组合成复杂的数据流拓扑。 常用算子 1、map 作用 将数据流中的数据进行转换, 形成新的数据流,消费一个元素并产出一个元素 参数 lambda表达式或MapFunctio 阅读全文
posted @ 2022-03-01 12:40 晓枫的春天 阅读(165) 评论(0) 推荐(0) 编辑
摘要: 需求 现有一个字符串,使用hivesql 统计指定字符出现的次数,比如一个字符串 “love hive”,现在需要统计“ve” 在字符串中出现的个数 select "love hive" str; love hive 实现方案 1、先将目标字符串里的匹配字符串替换成空 select regexp_r 阅读全文
posted @ 2022-03-01 11:46 晓枫的春天 阅读(7522) 评论(0) 推荐(0) 编辑
摘要: 需求 平时工作中经常会遇到取某某指标第 n 个的需求,今天介绍下取 这样需求的两种思路 数据准备 select *from temp_shop_info where shop_id = '111'; 111 1 90 111 2 80 111 3 50 111 4 70 111 5 20 111 6 阅读全文
posted @ 2022-02-28 16:56 晓枫的春天 阅读(542) 评论(0) 推荐(0) 编辑
摘要: translate()这个函数工作中偶尔会用到,但是每次用都要忘记了改怎么使用,今天抽时间就彻底梳理一下该函数的使用时的一些细节。 官方解释 desc function extended translate; translate(input, from, to) - translates the i 阅读全文
posted @ 2022-02-24 19:00 晓枫的春天 阅读(2089) 评论(0) 推荐(0) 编辑
摘要: 问题描述 集群默认计算引擎是 hive ,这两天自己试了一下 hive on spark 发现一个奇怪现象,首先 hive 引擎中文做简单查询或者聚合查询都正常,使用 spark 引擎简单查一个表的中文字段也没事,但是只要对 中文字段进行 group by 操作就乱码了 问题解决 在开启 spark 阅读全文
posted @ 2022-02-17 10:23 晓枫的春天 阅读(366) 评论(0) 推荐(0) 编辑
摘要: 需求 有一个字段有字母和数字组成,现要将字母和数字进行分离; portyarn8088manager porthdfs9820filse porthive10000query 要求输出结果 portyarn8088manager portyarnmanager 8088 porthdfs9820fi 阅读全文
posted @ 2022-02-16 12:22 晓枫的春天 阅读(1455) 评论(1) 推荐(0) 编辑
摘要: Environment Flink 可以在各种上下文环境中执行,不同的环境,代码提交的过程有所不同。这就要求在提交作业执行计算时,首先必须获取当前Flink的运行环境,从而建立起与Flink框架之间的联系,只有获取了上下文环境信息,才能将具体的任务调度到不同的TaskManager上执行。 1、创建 阅读全文
posted @ 2022-02-15 18:21 晓枫的春天 阅读(179) 评论(0) 推荐(0) 编辑
上一页 1 ··· 31 32 33 34 35 36 37 38 39 ··· 45 下一页