随笔分类 - Hive
摘要:众所周知,修改hdfs-site.xml的属性 <property> <name>dfs.replication</name> <value>2</value> </property> 即可调整副本数量,但实际生产环境的时,发现直接在HDFS上传文件,副本数量确实是2,但如果使用hive进行操作,副
阅读全文
摘要:写的UDF public class FilterEmojiUDF extends UDF { public String evaluate(String str) { if (str == null || str == "") { return null; } else { StringBuild
阅读全文
摘要:公司hadoop集群迁移,需要迁移所有的表结构及比较重要的表的数据(跨云服务机房,源广州机房,目标北京机房) 1、迁移表结构 1)、老hive中导出表结构 hive -e "use db;show tables;" > tables.txt #!/bin/bash cat tables.txt |w
阅读全文
摘要:在linux时删除时出现: 原来是用户组是文件是用户组admin。 但是我们linux系统中没有admin用户。 这时使用hadoop即可执行操作,因为是批量原因,所以我这边是把所有的文件所有者修改成 root了:
阅读全文
摘要:错误日志 环境: hive1.1.x ORC Snappy 原因: 使用 set hive.merge.mapfiles=true;set hive.merge.mapredfiles=true;set hive.merge.smallfiles.avgsize=256000000; 对小文件进行了
阅读全文
摘要:具体错误日志如下: 花了将近一天的时间,最终在这里找到解决办法: https://community.hortonworks.com/questions/37603/i-am-getting-outofmemory-while-inserting-the-data.html 我的hive表数据类型是
阅读全文
摘要:step1: 设置默认需要导出的hive数据库为defaultDatabase 在原集群中的任意节点上,新建“.hiverc”文件,加入如下内容: defaultDatabase可修改为需要迁移的其它名称 step2: 创建数据临时目录 step3: 生成数据导出脚本 执行如下命令生成数据导出脚本:
阅读全文
摘要:转自:http://blog.csdn.net/wisgood/article/details/39075883 作业提交到的队列:mapreduce.job.queuename 作业优先级:mapreduce.job.priority,优先级默认有5个:LOW VERY_LOW NORMAL(默认
阅读全文
摘要:转自:https://m.aliyun.com/yunqi/articles/79700 背景 使用过hadoop的人基本都会考虑集群里面资源的调度和优先级的问题,假设你现在所在的公司有一个大hadoop的集群,有很多不同的业务组同时使用。但是A项目组经常做一些定时的BI报表,B项目组则经常使用一些
阅读全文
摘要:转的这里的 首先先导出所有的table表 然后再使用hive内置语法导出hive表的建表语句,这里使用的是一个shell
阅读全文
摘要:map是配置mapred.max.split.size,来定义map处理文件的大小,默认是256000000字段,换算就是256M。 如果想增加map的并行度,那么就是减少map处理文件的大小即可。 即set mapred.max.split.size=xxx(更小的字节) reduce和map是一
阅读全文
摘要:本身我是这么运行的: 15 1 * * * /data/xx/shells/run.sh >> /data/xx/log/joblog/job.log 发现job.log中,没有打出hive的mapreduce日志来 最后解决办法是: 后边添加2>&1 ,意思是将标准错误输出重定向到标准输出,但是好
阅读全文
摘要:select * from tbl where id=2 union select * from tbl where id =1 如果hive使用union这么查询的时候,我们会发现数据变乱了。 解决办法就是在select后边实际写上列名,就没有问题了,例如: select column1,colu
阅读全文
摘要:<property> <name>hive.exec.compress.intermediate</name> <value>true</value></property><property> <name>mapreduce.map.output.compress</name> <value>tru
阅读全文
摘要:在hive-site.xml编辑 <property> <name>hive.exec.dynamic.partition</name> <value>true</value></property><property> <name>hive.exec.dynamic.partition.mode</
阅读全文
摘要:大概逻辑是先上传hdfs数据,然后创建hive外部表,关联到hdfs上传数据的位置。 截图比较概要,但是用起来很简单 1、创建路径和上传文件 2、创建外部表
阅读全文
摘要:排序存储数据至BUCKETS,这样可以顺序进行join
阅读全文
摘要:http://www.aboutyun.com/thread-7548-1-1.html 这里面列出了hive几乎所有的配置项,下面问题只是说出了几种配置项目的作用。更多内容,可以查看内容问题导读:1.hive输出格式的配置项是哪个?2.hive被各种语言调用如何配置?3.hive提交作业是在hiv
阅读全文
摘要:是在reduce阶段报的错误,详细错误信息是 我的hive版本是hive-0.13.1+cdh5.3.6+397 执行的脚本是: 注意,iptocode是个UDF 然后网上查到:https://issues.apache.org/jira/browse/HIVE-5771 我理解,这个是hive的b
阅读全文