Hive - 随笔分类 - HarkLee

hdfs副本调整不生效

摘要：众所周知，修改hdfs-site.xml的属性 <property> <name>dfs.replication</name> <value>2</value> </property> 即可调整副本数量，但实际生产环境的时，发现直接在HDFS上传文件，副本数量确实是2，但如果使用hive进行操作，副阅读全文

posted @ 2020-12-31 15:26 HarkLee 阅读(467) 评论(0) 推荐(0) 编辑

Hive清洗emoji及\0

摘要：写的UDF public class FilterEmojiUDF extends UDF { public String evaluate(String str) { if (str == null || str == "") { return null; } else { StringBuild 阅读全文

posted @ 2020-02-02 08:33 HarkLee 阅读(1576) 评论(0) 推荐(0) 编辑

迁移hive表及hive数据

摘要：公司hadoop集群迁移，需要迁移所有的表结构及比较重要的表的数据（跨云服务机房，源广州机房，目标北京机房） 1、迁移表结构 1）、老hive中导出表结构 hive -e "use db;show tables;" > tables.txt #!/bin/bash cat tables.txt |w 阅读全文

posted @ 2020-02-01 16:22 HarkLee 阅读(5412) 评论(0) 推荐(2) 编辑

hue创建的hdfs数据在hdfs无法删除的问题。

摘要：在linux时删除时出现：原来是用户组是文件是用户组admin。但是我们linux系统中没有admin用户。这时使用hadoop即可执行操作，因为是批量原因，所以我这边是把所有的文件所有者修改成 root了：阅读全文

posted @ 2019-11-28 08:39 HarkLee 阅读(755) 评论(0) 推荐(0) 编辑

HIVE出现Read past end of RLE integer from compressed stream Stream for column 1 kind LENGTH position: 359 length: 359 range: 0错误

摘要：错误日志环境： hive1.1.x ORC Snappy 原因：使用 set hive.merge.mapfiles=true;set hive.merge.mapredfiles=true;set hive.merge.smallfiles.avgsize=256000000; 对小文件进行了阅读全文

posted @ 2019-05-21 19:42 HarkLee 阅读(1648) 评论(0) 推荐(0) 编辑

执行Hive出现Error running child : java.lang.OutOfMemoryError: Java heap space错误

摘要：具体错误日志如下：花了将近一天的时间，最终在这里找到解决办法： https://community.hortonworks.com/questions/37603/i-am-getting-outofmemory-while-inserting-the-data.html 我的hive表数据类型是阅读全文

posted @ 2018-05-12 07:23 HarkLee 阅读(2382) 评论(0) 推荐(1) 编辑

迁移hive，不同集群。

摘要：step1: 设置默认需要导出的hive数据库为defaultDatabase 在原集群中的任意节点上，新建“.hiverc”文件，加入如下内容： defaultDatabase可修改为需要迁移的其它名称 step2: 创建数据临时目录 step3: 生成数据导出脚本执行如下命令生成数据导出脚本：阅读全文

posted @ 2018-05-10 09:38 HarkLee 阅读(2598) 评论(0) 推荐(0) 编辑

Hadoop 设置任务执行的队列以及优先级

摘要：转自：http://blog.csdn.net/wisgood/article/details/39075883 作业提交到的队列：mapreduce.job.queuename 作业优先级：mapreduce.job.priority，优先级默认有5个:LOW VERY_LOW NORMAL（默认阅读全文

posted @ 2017-12-06 09:15 HarkLee 阅读(2296) 评论(0) 推荐(0) 编辑

利用yarn capacity scheduler在EMR集群上实现大集群的多租户的集群资源隔离和quota限制

摘要：转自：https://m.aliyun.com/yunqi/articles/79700 背景使用过hadoop的人基本都会考虑集群里面资源的调度和优先级的问题，假设你现在所在的公司有一个大hadoop的集群，有很多不同的业务组同时使用。但是A项目组经常做一些定时的BI报表，B项目组则经常使用一些阅读全文

posted @ 2017-12-06 09:14 HarkLee 阅读(1902) 评论(0) 推荐(0) 编辑

批量导出hive表的建表语句

摘要：转的这里的首先先导出所有的table表然后再使用hive内置语法导出hive表的建表语句，这里使用的是一个shell 阅读全文

posted @ 2017-11-23 18:25 HarkLee 阅读(9396) 评论(0) 推荐(1) 编辑

hive中，动态添加map和reduce的大小，以增加并行度

摘要：map是配置mapred.max.split.size，来定义map处理文件的大小，默认是256000000字段，换算就是256M。如果想增加map的并行度，那么就是减少map处理文件的大小即可。即set mapred.max.split.size=xxx（更小的字节） reduce和map是一阅读全文

posted @ 2017-07-03 19:21 HarkLee 阅读(1927) 评论(0) 推荐(0) 编辑

在cron运行hive时，无法打出mapreduce日志

摘要：本身我是这么运行的： 15 1 * * * /data/xx/shells/run.sh >> /data/xx/log/joblog/job.log 发现job.log中，没有打出hive的mapreduce日志来最后解决办法是：后边添加2>&1 ，意思是将标准错误输出重定向到标准输出，但是好阅读全文

posted @ 2017-06-30 09:38 HarkLee 阅读(548) 评论(0) 推荐(0) 编辑

hive中使用union出现异常数据

摘要：select * from tbl where id=2 union select * from tbl where id =1 如果hive使用union这么查询的时候，我们会发现数据变乱了。解决办法就是在select后边实际写上列名，就没有问题了，例如： select column1,colu 阅读全文

posted @ 2017-06-29 20:31 HarkLee 阅读(1125) 评论(0) 推荐(0) 编辑

hive启用压缩

摘要：<property> <name>hive.exec.compress.intermediate</name> <value>true</value></property><property> <name>mapreduce.map.output.compress</name> <value>tru 阅读全文

posted @ 2017-06-26 15:46 HarkLee 阅读(580) 评论(0) 推荐(0) 编辑

hive动态分区

摘要：在hive-site.xml编辑 <property> <name>hive.exec.dynamic.partition</name> <value>true</value></property><property> <name>hive.exec.dynamic.partition.mode</ 阅读全文

posted @ 2017-06-26 15:35 HarkLee 阅读(180) 评论(0) 推荐(0) 编辑

使用Hue上传hive数据

摘要：大概逻辑是先上传hdfs数据，然后创建hive外部表，关联到hdfs上传数据的位置。截图比较概要，但是用起来很简单 1、创建路径和上传文件 2、创建外部表阅读全文

posted @ 2016-09-26 16:03 HarkLee 阅读(5848) 评论(1) 推荐(0) 编辑

增加副本数，执行查询（优化）

摘要：阅读全文

posted @ 2016-09-05 18:33 HarkLee 阅读(183) 评论(0) 推荐(0) 编辑

hive中大表join

摘要：排序存储数据至BUCKETS，这样可以顺序进行join 阅读全文

posted @ 2016-09-05 18:13 HarkLee 阅读(345) 评论(0) 推荐(0) 编辑

【转】Hive配置文件中配置项的含义详解（收藏版）

摘要：http://www.aboutyun.com/thread-7548-1-1.html 这里面列出了hive几乎所有的配置项，下面问题只是说出了几种配置项目的作用。更多内容，可以查看内容问题导读：1.hive输出格式的配置项是哪个？2.hive被各种语言调用如何配置？3.hive提交作业是在hiv 阅读全文

posted @ 2016-07-07 14:47 HarkLee 阅读(3761) 评论(0) 推荐(0) 编辑

hive脚本出现Error: java.lang.RuntimeException: Error in configuring object和Caused by: java.lang.IndexOutOfBoundsException: Index: 9, Size: 9

摘要：是在reduce阶段报的错误，详细错误信息是我的hive版本是hive-0.13.1+cdh5.3.6+397 执行的脚本是：注意，iptocode是个UDF 然后网上查到：https://issues.apache.org/jira/browse/HIVE-5771 我理解，这个是hive的b 阅读全文

posted @ 2016-06-12 19:26 HarkLee 阅读(8556) 评论(0) 推荐(0) 编辑

HarkLee

打酱油

随笔分类 - Hive

公告

搜索

常用链接

我的标签

随笔分类

随笔档案

文章分类

阅读排行榜

评论排行榜

推荐排行榜

最新评论