随笔分类 -  Hive

摘要:众所周知,修改hdfs-site.xml的属性 <property> <name>dfs.replication</name> <value>2</value> </property> 即可调整副本数量,但实际生产环境的时,发现直接在HDFS上传文件,副本数量确实是2,但如果使用hive进行操作,副 阅读全文
posted @ 2020-12-31 15:26 HarkLee 阅读(467) 评论(0) 推荐(0) 编辑
摘要:写的UDF public class FilterEmojiUDF extends UDF { public String evaluate(String str) { if (str == null || str == "") { return null; } else { StringBuild 阅读全文
posted @ 2020-02-02 08:33 HarkLee 阅读(1576) 评论(0) 推荐(0) 编辑
摘要:公司hadoop集群迁移,需要迁移所有的表结构及比较重要的表的数据(跨云服务机房,源广州机房,目标北京机房) 1、迁移表结构 1)、老hive中导出表结构 hive -e "use db;show tables;" > tables.txt #!/bin/bash cat tables.txt |w 阅读全文
posted @ 2020-02-01 16:22 HarkLee 阅读(5412) 评论(0) 推荐(2) 编辑
摘要:在linux时删除时出现: 原来是用户组是文件是用户组admin。 但是我们linux系统中没有admin用户。 这时使用hadoop即可执行操作,因为是批量原因,所以我这边是把所有的文件所有者修改成 root了: 阅读全文
posted @ 2019-11-28 08:39 HarkLee 阅读(755) 评论(0) 推荐(0) 编辑
摘要:错误日志 环境: hive1.1.x ORC Snappy 原因: 使用 set hive.merge.mapfiles=true;set hive.merge.mapredfiles=true;set hive.merge.smallfiles.avgsize=256000000; 对小文件进行了 阅读全文
posted @ 2019-05-21 19:42 HarkLee 阅读(1648) 评论(0) 推荐(0) 编辑
摘要:具体错误日志如下: 花了将近一天的时间,最终在这里找到解决办法: https://community.hortonworks.com/questions/37603/i-am-getting-outofmemory-while-inserting-the-data.html 我的hive表数据类型是 阅读全文
posted @ 2018-05-12 07:23 HarkLee 阅读(2382) 评论(0) 推荐(1) 编辑
摘要:step1: 设置默认需要导出的hive数据库为defaultDatabase 在原集群中的任意节点上,新建“.hiverc”文件,加入如下内容: defaultDatabase可修改为需要迁移的其它名称 step2: 创建数据临时目录 step3: 生成数据导出脚本 执行如下命令生成数据导出脚本: 阅读全文
posted @ 2018-05-10 09:38 HarkLee 阅读(2598) 评论(0) 推荐(0) 编辑
摘要:转自:http://blog.csdn.net/wisgood/article/details/39075883 作业提交到的队列:mapreduce.job.queuename 作业优先级:mapreduce.job.priority,优先级默认有5个:LOW VERY_LOW NORMAL(默认 阅读全文
posted @ 2017-12-06 09:15 HarkLee 阅读(2296) 评论(0) 推荐(0) 编辑
摘要:转自:https://m.aliyun.com/yunqi/articles/79700 背景 使用过hadoop的人基本都会考虑集群里面资源的调度和优先级的问题,假设你现在所在的公司有一个大hadoop的集群,有很多不同的业务组同时使用。但是A项目组经常做一些定时的BI报表,B项目组则经常使用一些 阅读全文
posted @ 2017-12-06 09:14 HarkLee 阅读(1902) 评论(0) 推荐(0) 编辑
摘要:转的这里的 首先先导出所有的table表 然后再使用hive内置语法导出hive表的建表语句,这里使用的是一个shell 阅读全文
posted @ 2017-11-23 18:25 HarkLee 阅读(9396) 评论(0) 推荐(1) 编辑
摘要:map是配置mapred.max.split.size,来定义map处理文件的大小,默认是256000000字段,换算就是256M。 如果想增加map的并行度,那么就是减少map处理文件的大小即可。 即set mapred.max.split.size=xxx(更小的字节) reduce和map是一 阅读全文
posted @ 2017-07-03 19:21 HarkLee 阅读(1927) 评论(0) 推荐(0) 编辑
摘要:本身我是这么运行的: 15 1 * * * /data/xx/shells/run.sh >> /data/xx/log/joblog/job.log 发现job.log中,没有打出hive的mapreduce日志来 最后解决办法是: 后边添加2>&1 ,意思是将标准错误输出重定向到标准输出,但是好 阅读全文
posted @ 2017-06-30 09:38 HarkLee 阅读(548) 评论(0) 推荐(0) 编辑
摘要:select * from tbl where id=2 union select * from tbl where id =1 如果hive使用union这么查询的时候,我们会发现数据变乱了。 解决办法就是在select后边实际写上列名,就没有问题了,例如: select column1,colu 阅读全文
posted @ 2017-06-29 20:31 HarkLee 阅读(1125) 评论(0) 推荐(0) 编辑
摘要:<property> <name>hive.exec.compress.intermediate</name> <value>true</value></property><property> <name>mapreduce.map.output.compress</name> <value>tru 阅读全文
posted @ 2017-06-26 15:46 HarkLee 阅读(580) 评论(0) 推荐(0) 编辑
摘要:在hive-site.xml编辑 <property> <name>hive.exec.dynamic.partition</name> <value>true</value></property><property> <name>hive.exec.dynamic.partition.mode</ 阅读全文
posted @ 2017-06-26 15:35 HarkLee 阅读(180) 评论(0) 推荐(0) 编辑
摘要:大概逻辑是先上传hdfs数据,然后创建hive外部表,关联到hdfs上传数据的位置。 截图比较概要,但是用起来很简单 1、创建路径和上传文件 2、创建外部表 阅读全文
posted @ 2016-09-26 16:03 HarkLee 阅读(5848) 评论(1) 推荐(0) 编辑
摘要: 阅读全文
posted @ 2016-09-05 18:33 HarkLee 阅读(183) 评论(0) 推荐(0) 编辑
摘要:排序存储数据至BUCKETS,这样可以顺序进行join 阅读全文
posted @ 2016-09-05 18:13 HarkLee 阅读(345) 评论(0) 推荐(0) 编辑
摘要:http://www.aboutyun.com/thread-7548-1-1.html 这里面列出了hive几乎所有的配置项,下面问题只是说出了几种配置项目的作用。更多内容,可以查看内容问题导读:1.hive输出格式的配置项是哪个?2.hive被各种语言调用如何配置?3.hive提交作业是在hiv 阅读全文
posted @ 2016-07-07 14:47 HarkLee 阅读(3761) 评论(0) 推荐(0) 编辑
摘要:是在reduce阶段报的错误,详细错误信息是 我的hive版本是hive-0.13.1+cdh5.3.6+397 执行的脚本是: 注意,iptocode是个UDF 然后网上查到:https://issues.apache.org/jira/browse/HIVE-5771 我理解,这个是hive的b 阅读全文
posted @ 2016-06-12 19:26 HarkLee 阅读(8556) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示