dairui130

导航

2019年3月7日 #

hive中数据存储格式对比:textfile,parquent,orc,thrift,avro,protubuf

摘要: 这篇文章我会从业务中关注的: 1. 存储大小 2.查询效率 3.是否支持表结构变更既数据版本变迁 5.能否避免分隔符问题 6.优势和劣势总结 几方面完整的介绍下hive中数据以下几种数据格式:textfile,parquent,orc,thrift,avro,protubuf 更新中... 预计3月 阅读全文

posted @ 2019-03-07 17:58 dairui130 阅读(769) 评论(1) 推荐(0) 编辑

hive 实现类似 contain 包含查询

摘要: 如何用hive sql 实现 contain 查询? 需求:判断某个字符串是否在另一个字符串中? 方法: 可以自定义函数,但是用正则匹配regexp更方便 代码如下: 首先,查看regexp正则函数的用法: 那么用正则实现包含功能的代码是: 表示 'QQqq' 匹配 '.*qq.*' 为真。QQqq 阅读全文

posted @ 2019-03-07 15:09 dairui130 阅读(26015) 评论(0) 推荐(0) 编辑

hive函数 parse_url的使用

摘要: hive提供了直接处理url的函数 parse_url desc funtion 的解释是: partToExtract的选项包含[HOST,PATH,QUERY,REF,PROTOCOL,FILE,AUTHORITY,USERINFO] 使用方法 常用的参数有 "HOST" 和 "PATH" 阅读全文

posted @ 2019-03-07 14:47 dairui130 阅读(938) 评论(0) 推荐(0) 编辑