HIve - 随笔分类(第4页) - 晓枫的春天

hive 统计字符串中指定字符的个数

摘要：需求现有一个字符串，使用hivesql 统计指定字符出现的次数，比如一个字符串 “love hive”,现在需要统计“ve” 在字符串中出现的个数 select "love hive" str; love hive 实现方案 1、先将目标字符串里的匹配字符串替换成空 select regexp_r 阅读全文

posted @ 2022-03-01 11:46 晓枫的春天阅读(7945) 评论(0) 推荐(0) 编辑

hive 取第二高指标的两种解决思路

摘要：需求平时工作中经常会遇到取某某指标第 n 个的需求，今天介绍下取这样需求的两种思路数据准备 select *from temp_shop_info where shop_id = '111'; 111 1 90 111 2 80 111 3 50 111 4 70 111 5 20 111 6 阅读全文

posted @ 2022-02-28 16:56 晓枫的春天阅读(592) 评论(0) 推荐(0) 编辑

hive translate()函数的使用

摘要：translate()这个函数工作中偶尔会用到，但是每次用都要忘记了改怎么使用，今天抽时间就彻底梳理一下该函数的使用时的一些细节。官方解释 desc function extended translate; translate(input, from, to) - translates the i 阅读全文

posted @ 2022-02-24 19:00 晓枫的春天阅读(2256) 评论(0) 推荐(0) 编辑

hive on spark 读取中文乱码

摘要：问题描述集群默认计算引擎是 hive ，这两天自己试了一下 hive on spark 发现一个奇怪现象，首先 hive 引擎中文做简单查询或者聚合查询都正常，使用 spark 引擎简单查一个表的中文字段也没事，但是只要对中文字段进行 group by 操作就乱码了问题解决在开启 spark 阅读全文

posted @ 2022-02-17 10:23 晓枫的春天阅读(405) 评论(0) 推荐(0) 编辑

hive 分离字符串中的数字&字母

摘要：需求有一个字段有字母和数字组成，现要将字母和数字进行分离； portyarn8088manager porthdfs9820filse porthive10000query 要求输出结果 portyarn8088manager portyarnmanager 8088 porthdfs9820fi 阅读全文

posted @ 2022-02-16 12:22 晓枫的春天阅读(1503) 评论(1) 推荐(0) 编辑

hive 实现行轮值

摘要：需求现需要返回每本小说的的iD,书名、评分，以及下一个比当前小说高和低的评分值。如果没有找到更高或更低的评分值，你希望结果集可以“折回”（第一个 score 的前一行是最后一个score；反之，最后一个 score 的下一行即是第一个 scoe）。你希望返回如下所示的结果集。 id name sc 阅读全文

posted @ 2022-02-15 12:09 晓枫的春天阅读(51) 评论(0) 推荐(0) 编辑

hive 截取不固定位置字符串

摘要：需求日志表中有如下数据 film:[non_marked]qq:[unit]tailpipe:[withabanana?]80sxxxxx call:[F_GET_ROWS()]b1:[ROSEWOOD...SIR]b2:[44400002]77.90xxxxx xxxxxabc[867]xxx[ 阅读全文

posted @ 2022-02-14 11:04 晓枫的春天阅读(1956) 评论(0) 推荐(0) 编辑

hiveserver2 启动报错 Caused by: org.apache.hadoop.ipc.RemoteException: Cannot create directory /tmp/hive/hui/c054b89f-756e-41e5-bb1f-8e4abc389e29. Name node is in safe mode.

摘要：报错说是 hdfs 还处于安全模式解决 hdfs dfsadmin -safemode leave 观察 hiveserver2 已正常补充 hdfs 安全模式几个命令 hdfs dfsadmin -safemode get （功能描述：查看安全模式状态） hdfs dfsadmin -saf 阅读全文

posted @ 2022-02-13 18:34 晓枫的春天阅读(116) 评论(0) 推荐(0) 编辑

hive 获取 json 中的 key

摘要：需求有一下 json 数组，要求获取其 key [{"title":"笑傲江湖","author":"金庸"},{"title":"流星蝴蝶剑","author":"古龙"}] 需求实现 1、首先将 json 数组转换为字符串；这里使用字符串替换函数 translate select tra 阅读全文

posted @ 2022-02-13 17:29 晓枫的春天阅读(2392) 评论(0) 推荐(0) 编辑

hive 定位连续区间的起始位置和结束位置

摘要：需求 id 是上表temp_id_list_0209的主键，表每一行包含日志表中的一个 ID，现将一些 ID 从 Logs 表中删除。编写一个 SQL 查询得到 Logs 表中的连续区间的开始数字和结束数字，将查询表按照 start_id 排序。要求输出结果为 start_id end_id 1 阅读全文

posted @ 2022-02-13 16:35 晓枫的春天阅读(351) 评论(0) 推荐(0) 编辑

hive 用户行为路径分析

摘要：需求已知用户行为表 temp_actions_log，大概字段有：(user_id 用户编号, op_id 操作编号, op_time 操作时间) 要求统计每天符合以下条件的用户数：A操作之后是B操作，AB操作必须相邻。统计用户行为序列为A-B-D的用户数其中:A-B之间可以有任何其他浏览阅读全文

posted @ 2022-02-11 12:17 晓枫的春天阅读(426) 评论(0) 推荐(0) 编辑

hive求连续段的最后一个数及每段的个数

摘要：需求有一个表存放在数字ID，要求输出连续段的最后一个id及每段的个数；数据准备 create table temp_id_list_0209 ( id int ) row format delimited fields terminated by '\t' stored as orc tblpr 阅读全文

posted @ 2022-02-10 12:09 晓枫的春天阅读(228) 评论(0) 推荐(0) 编辑

hive求不及格课程数大于等于2的学生的平均成绩及其排名

摘要：需求给定一个表，包含三个字段；sid 学生ID，score 课程分数,cid 课程ID ，求不及格课程数大于2的学生的平均成绩及其成绩平均值后所在的排名数据准备 create table scores_info_0208 ( sid int, score int, cid int ) row f 阅读全文

posted @ 2022-02-09 15:18 晓枫的春天阅读(245) 评论(0) 推荐(0) 编辑

hive 向用户推荐好友收藏的电影

摘要：需求向用户 user_id = 1 推荐其关注的人喜欢的音乐有如下三个表 1、用户关注表 user_id follow_id 1 7 1 5 1 4 1 3 2、collect_movies user_id movice_id 1 1001 1 1004 1 1002 3 1001 3 1005 阅读全文

posted @ 2022-02-08 14:57 晓枫的春天阅读(85) 评论(0) 推荐(0) 编辑

hive 取中位数的两种方式

摘要：需求描述字段：店铺(shop_id),销量(sale),商品id(commodity_id)，求每个店铺商品销量排名的中位数数据准备 use default; create table temp_shop_info ( shop_id string, commodity_id string, s 阅读全文

posted @ 2022-02-07 19:18 晓枫的春天阅读(1791) 评论(0) 推荐(0) 编辑

hive 字符串模糊匹配的实现两种实现方案

摘要：字符串模糊匹配在工作中经常会用到，下面我们来看下常用的字符串匹配的实现方式方案一 like like 经常用于字符串模糊匹配：语法简单，直接过滤出来满足条件的记录，下面我们取一下地市码表，匹配地市名称带有阳的地市名称 select area_desc from temp.dim_area wh 阅读全文

posted @ 2022-02-06 23:19 晓枫的春天阅读(2732) 评论(0) 推荐(0) 编辑

hive 解析 json 数据方法

摘要：json是常见的一种数据格式，一般通过埋点程序获取行为用户行为数据，将多个字段存放在一个json数组中，因此数据平台调用数据时，要对json数据进行解析处理。接下来介绍下Hive中是如何解析json数据的。 hive 解析 json 数据函数 1、get_json_object 语法：get_jso 阅读全文

posted @ 2022-01-29 19:31 晓枫的春天阅读(2130) 评论(0) 推荐(0) 编辑

关于 hive 特殊字段的应用举例

摘要：建表 create table temp.jc_t_test_map_array ( id int, name string, hobby array<string>, -- array中元素为string类型 friend map<string,string>, -- map中键和值均为strin 阅读全文

posted @ 2022-01-29 18:22 晓枫的春天阅读(80) 评论(0) 推荐(0) 编辑

关于 Hive 空值过多引起的数据倾斜的两种解决方案

摘要：场景有木有发现工作中偶尔有些大量的null值或者一些无意义的数据参与到计算作业中，任务跑的贼慢，表中有大量的null值，如果表之间进行join关联操作，就会有shuffle产生，这样所有的null值都会集中在一个reduce中，会产生数据倾斜，降低作业效率。辣么我们该如何避免这种囧况呢，现在给大家阅读全文

posted @ 2022-01-26 17:32 晓枫的春天阅读(1184) 评论(0) 推荐(0) 编辑

Hive nvl 和 coalesce 的使用

摘要：nvl 和 coalesce 说明 nvl 和 coalesce 是 HSQL 中常用的空值处理函数，今天给大家聊聊这两个函数的使用细节、数据准备先建表插入两条测试数据 create table temp.jc_test_coalesce_nvl ( c1 int, c2 int, c3 in 阅读全文

posted @ 2022-01-25 17:43 晓枫的春天阅读(5331) 评论(1) 推荐(0) 编辑

滴水穿石不是靠力，而是因为不舍昼夜。

随笔分类 - HIve

公告

搜索

常用链接

随笔分类

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论