Hadoop - 随笔分类 - HarkLee

hdfs副本调整不生效

摘要：众所周知，修改hdfs-site.xml的属性 <property> <name>dfs.replication</name> <value>2</value> </property> 即可调整副本数量，但实际生产环境的时，发现直接在HDFS上传文件，副本数量确实是2，但如果使用hive进行操作，副阅读全文

posted @ 2020-12-31 15:26 HarkLee 阅读(500) 评论(0) 推荐(0)

hue创建的hdfs数据在hdfs无法删除的问题。

摘要：在linux时删除时出现：原来是用户组是文件是用户组admin。但是我们linux系统中没有admin用户。这时使用hadoop即可执行操作，因为是批量原因，所以我这边是把所有的文件所有者修改成 root了：阅读全文

posted @ 2019-11-28 08:39 HarkLee 阅读(777) 评论(0) 推荐(0)

HDFS修改副本数，并生效。

摘要：1、hadoop集群使用的ucloud的uahdoop 2、是公司集群配置小，只有两台core节点，实际就是两台的datanode。容量占用超过了80%，需要缩减副本以空出容量。 3、查看可以看到，每个文件三个副本。 4、执行将所有的已经上传的副本从3个变成了两个 5、再执行第三步脚本确认。阅读全文

posted @ 2019-11-02 15:30 HarkLee 阅读(3053) 评论(1) 推荐(0)

HSDF查看各级目录的大小

摘要：hadoop fs -du -h / 阅读全文

posted @ 2019-04-29 10:01 HarkLee 阅读(395) 评论(0) 推荐(0)

执行Hive出现Error running child : java.lang.OutOfMemoryError: Java heap space错误

摘要：具体错误日志如下：花了将近一天的时间，最终在这里找到解决办法： https://community.hortonworks.com/questions/37603/i-am-getting-outofmemory-while-inserting-the-data.html 我的hive表数据类型是阅读全文

posted @ 2018-05-12 07:23 HarkLee 阅读(2420) 评论(0) 推荐(1)

迁移hive，不同集群。

摘要：step1: 设置默认需要导出的hive数据库为defaultDatabase 在原集群中的任意节点上，新建“.hiverc”文件，加入如下内容： defaultDatabase可修改为需要迁移的其它名称 step2: 创建数据临时目录 step3: 生成数据导出脚本执行如下命令生成数据导出脚本：阅读全文

posted @ 2018-05-10 09:38 HarkLee 阅读(2641) 评论(0) 推荐(0)

Hadoop 设置任务执行的队列以及优先级

摘要：转自：http://blog.csdn.net/wisgood/article/details/39075883 作业提交到的队列：mapreduce.job.queuename 作业优先级：mapreduce.job.priority，优先级默认有5个:LOW VERY_LOW NORMAL（默认阅读全文

posted @ 2017-12-06 09:15 HarkLee 阅读(2385) 评论(0) 推荐(0)

利用yarn capacity scheduler在EMR集群上实现大集群的多租户的集群资源隔离和quota限制

摘要：转自：https://m.aliyun.com/yunqi/articles/79700 背景使用过hadoop的人基本都会考虑集群里面资源的调度和优先级的问题，假设你现在所在的公司有一个大hadoop的集群，有很多不同的业务组同时使用。但是A项目组经常做一些定时的BI报表，B项目组则经常使用一些阅读全文

posted @ 2017-12-06 09:14 HarkLee 阅读(1963) 评论(0) 推荐(0)

批量导出hive表的建表语句

摘要：转的这里的首先先导出所有的table表然后再使用hive内置语法导出hive表的建表语句，这里使用的是一个shell 阅读全文

posted @ 2017-11-23 18:25 HarkLee 阅读(9473) 评论(0) 推荐(1)

namenode做了ha后kylin出现错误No registered coprocessor service found for name CubeVisitService in region

摘要：错误如下：我理解是做完ha后，hbase的coprocessor协处理需要做一下更新，解决办法如下：参考： http://apache-kylin.74782.x6.nabble.com/Timeout-visiting-cube-td4843.html 阅读全文

posted @ 2017-09-17 09:13 HarkLee 阅读(2553) 评论(0) 推荐(0)

hive中，动态添加map和reduce的大小，以增加并行度

摘要：map是配置mapred.max.split.size，来定义map处理文件的大小，默认是256000000字段，换算就是256M。如果想增加map的并行度，那么就是减少map处理文件的大小即可。即set mapred.max.split.size=xxx（更小的字节） reduce和map是一阅读全文

posted @ 2017-07-03 19:21 HarkLee 阅读(1953) 评论(0) 推荐(0)

在cron运行hive时，无法打出mapreduce日志

摘要：本身我是这么运行的： 15 1 * * * /data/xx/shells/run.sh >> /data/xx/log/joblog/job.log 发现job.log中，没有打出hive的mapreduce日志来最后解决办法是：后边添加2>&1 ，意思是将标准错误输出重定向到标准输出，但是好阅读全文

posted @ 2017-06-30 09:38 HarkLee 阅读(562) 评论(0) 推荐(0)

查看name的状态，是属于active还是standby

摘要：sudo -E -u hadoop /home/hadoop/bin/hdfs haadmin -getServiceState nn1 sudo -E -u hadoop /home/hadoop/bin/hdfs haadmin -getServiceState nn2 sudo -E 加大E是阅读全文

posted @ 2017-06-27 13:39 HarkLee 阅读(387) 评论(0) 推荐(0)

利用Flume将MySQL表数据准实时抽取到HDFS

摘要：转自：http://blog.csdn.net/wzy0623/article/details/73650053 一、为什么要用到Flume 在以前搭建HAWQ数据仓库实验环境时，我使用Sqoop抽取从MySQL数据库增量抽取数据到HDFS，然后用HAWQ的外部表进行访问。这种方式只需要很少量的配置阅读全文

posted @ 2017-06-27 08:38 HarkLee 阅读(15532) 评论(0) 推荐(0)

hdfs中block的使用情况，副本所在情况等等

摘要：hadoop fsck /user/hive/warehouse/dataplat.db/hive_datacppa2xsourcendchinaraw/partitiondate=2016-11-29/info.log2016-11-29 -files -blocks -locations 阅读全文

posted @ 2016-11-30 15:55 HarkLee 阅读(388) 评论(0) 推荐(0)

使用Hue上传hive数据

摘要：大概逻辑是先上传hdfs数据，然后创建hive外部表，关联到hdfs上传数据的位置。截图比较概要，但是用起来很简单 1、创建路径和上传文件 2、创建外部表阅读全文

posted @ 2016-09-26 16:03 HarkLee 阅读(5913) 评论(1) 推荐(0)

【转】最近搞Hadoop集群迁移踩的坑杂记

摘要：http://ju.outofmemory.cn/entry/237491 Overview 最近一段时间都在搞集群迁移。最早公司的hadoop数据集群实在阿里云上的，机器不多，大概4台的样子，据说每个月要花7000多。从成本的角度，公司采购了4台2手服务器(E5-2420 v2 * 2+96G内存阅读全文

posted @ 2016-07-08 11:38 HarkLee 阅读(7032) 评论(0) 推荐(0)

[导入]Eclipse 导入/编译 Hadoop 源码

摘要：http://www.cnblogs.com/errorx/p/3779578.html 1.准备工作 jdk： eclipse： Maven： libprotoc ：https://developers.google.com/protocol-buffers/ hadoop:http://www. 阅读全文

posted @ 2016-06-05 15:26 HarkLee 阅读(362) 评论(0) 推荐(0)

hadoop常用命令

摘要：hdfs fsck / 副本数量 hdfs dfsadmin -report hdfs大小阅读全文

posted @ 2016-06-04 15:53 HarkLee 阅读(216) 评论(0) 推荐(0)

【原创】CDM添加新磁盘，然后负载

摘要：hdfs快占满了，所以为节点中添加新的磁盘（这块是个教训，以后用新的节点时，磁盘需要一次性插满，省得后续再添加磁盘了）注意：添加磁盘时，不仅仅datanode在配置时添加节点，nodemanager也同时需要添加的。然后需要在CHM中修改配置（我这边出现了一个特殊情况，有一台机器硬盘口坏了，所阅读全文

posted @ 2016-05-19 09:09 HarkLee 阅读(371) 评论(0) 推荐(0)

HarkLee

打酱油

随笔分类 - Hadoop

公告