随笔分类 -  Hdfs

摘要:众所周知,修改hdfs-site.xml的属性 <property> <name>dfs.replication</name> <value>2</value> </property> 即可调整副本数量,但实际生产环境的时,发现直接在HDFS上传文件,副本数量确实是2,但如果使用hive进行操作,副 阅读全文
posted @ 2020-12-31 15:26 HarkLee 阅读(467) 评论(0) 推荐(0) 编辑
摘要:在linux时删除时出现: 原来是用户组是文件是用户组admin。 但是我们linux系统中没有admin用户。 这时使用hadoop即可执行操作,因为是批量原因,所以我这边是把所有的文件所有者修改成 root了: 阅读全文
posted @ 2019-11-28 08:39 HarkLee 阅读(755) 评论(0) 推荐(0) 编辑
摘要:1、hadoop集群使用的ucloud的uahdoop 2、是公司集群配置小,只有两台core节点,实际就是两台的datanode。 容量占用超过了80%,需要缩减副本以空出容量。 3、查看 可以看到,每个文件三个副本。 4、执行 将所有的已经上传的副本从3个变成了两个 5、再执行第三步脚本确认。 阅读全文
posted @ 2019-11-02 15:30 HarkLee 阅读(2988) 评论(1) 推荐(0) 编辑
摘要:hadoop fs -du -h / 阅读全文
posted @ 2019-04-29 10:01 HarkLee 阅读(373) 评论(0) 推荐(0) 编辑
摘要:sudo -E -u hadoop /home/hadoop/bin/hdfs haadmin -getServiceState nn1 sudo -E -u hadoop /home/hadoop/bin/hdfs haadmin -getServiceState nn2 sudo -E 加大E是 阅读全文
posted @ 2017-06-27 13:39 HarkLee 阅读(363) 评论(0) 推荐(0) 编辑
摘要:转自:http://blog.csdn.net/wzy0623/article/details/73650053 一、为什么要用到Flume 在以前搭建HAWQ数据仓库实验环境时,我使用Sqoop抽取从MySQL数据库增量抽取数据到HDFS,然后用HAWQ的外部表进行访问。这种方式只需要很少量的配置 阅读全文
posted @ 2017-06-27 08:38 HarkLee 阅读(15455) 评论(0) 推荐(0) 编辑
摘要:hadoop fsck /user/hive/warehouse/dataplat.db/hive_datacppa2xsourcendchinaraw/partitiondate=2016-11-29/info.log2016-11-29 -files -blocks -locations 阅读全文
posted @ 2016-11-30 15:55 HarkLee 阅读(354) 评论(0) 推荐(0) 编辑
摘要:大概逻辑是先上传hdfs数据,然后创建hive外部表,关联到hdfs上传数据的位置。 截图比较概要,但是用起来很简单 1、创建路径和上传文件 2、创建外部表 阅读全文
posted @ 2016-09-26 16:03 HarkLee 阅读(5848) 评论(1) 推荐(0) 编辑
摘要:sudo -u hive hdfs dfs -rmr /user/hive/.Trash/* 因为大多删除数据,是都通过hive权限做的删除,所以回收站数据在/user/hive下边的.Trash。 所以删除的时候也要使用hive权限。 例如用的是root删除做删除,那么会发现删除的数据就变化到了/ 阅读全文
posted @ 2016-08-11 10:24 HarkLee 阅读(750) 评论(1) 推荐(0) 编辑
摘要:问题待解决 阅读全文
posted @ 2016-06-03 07:53 HarkLee 阅读(2641) 评论(0) 推荐(0) 编辑
摘要:hdfs快占满了,所以为节点中添加新的磁盘(这块是个教训,以后用新的节点时,磁盘需要一次性插满,省得后续再添加磁盘了) 注意: 添加磁盘时,不仅仅datanode在配置时添加节点,nodemanager也同时需要添加的。 然后需要在CHM中修改配置(我这边出现了一个特殊情况,有一台机器硬盘口坏了,所 阅读全文
posted @ 2016-05-19 09:09 HarkLee 阅读(339) 评论(0) 推荐(0) 编辑
摘要:转自:http://blog.csdn.net/huyuxiang999/article/details/17691405 一、实验环境 : 1、硬件:3台DELL服务器,CPU:2.27GHz*16,内存:16GB,一台为master,另外2台为slave。 2、系统:均为CentOS6.3 3、 阅读全文
posted @ 2016-05-19 08:49 HarkLee 阅读(5445) 评论(0) 推荐(0) 编辑
摘要:转自:http://www.aboutyun.com/thread-7354-1-1.html 集群平衡介绍 Hadoop的HDFS集群非常容易出现机器与机器之间磁盘利用率不平衡的情况,比如集群中添加新的数据节点。当HDFS出现不平衡状况的时候,将引发很多问题,比如MR程序无法很好地利用本地计算的优 阅读全文
posted @ 2016-05-18 18:43 HarkLee 阅读(2125) 评论(0) 推荐(0) 编辑
摘要:转自:http://www.jianshu.com/p/372d25352d3a HDFS NameNode对文件块复制相关所有事物负责,它周期性接受来自于DataNode的HeartBeat和BlockReport信息,HDFS文件块副本的放置对于系统整体的可靠性和性能有关键性影响。 一个简单但非 阅读全文
posted @ 2016-05-18 18:40 HarkLee 阅读(3169) 评论(0) 推荐(0) 编辑
摘要:我这个是看别人发的,记录一下,解决办法如下: 阅读全文
posted @ 2015-10-19 11:49 HarkLee 阅读(1242) 评论(0) 推荐(0) 编辑
摘要:其实就是从网络上copy的吧,在这里做一下记录这个是看一下有哪些测试方式:hadoop jar /opt/cloudera/parcels/CDH-5.3.6-1.cdh5.3.6.p0.11/jars/hadoop-mapreduce-client-jobclient-2.5.0-cdh5.3.6... 阅读全文
posted @ 2015-09-17 17:49 HarkLee 阅读(753) 评论(0) 推荐(0) 编辑
摘要:这个其实是转自杭州第三次spark meetingup,华为的李昆大神的分享。 OLAP分析场景ORCFileParquetFileCubeFileFullscanonedimensionFastFastMedian(LowCardinality)(只扫需要的列)(只扫需要的列)(只扫需要的列... 阅读全文
posted @ 2015-04-22 16:05 HarkLee 阅读(1207) 评论(0) 推荐(0) 编辑
摘要:文章来自:http://www.cnblogs.com/hark0623/p/4177794.html转载请注明其实问题很简单,因为在CDH中hdfs-site.xml配置文件中WEB UI配置的是域名,而域名在Hosts又被解析成内网IP。你使用netstat -apn | grep 50700看... 阅读全文
posted @ 2014-12-22 11:22 HarkLee 阅读(6926) 评论(1) 推荐(1) 编辑

点击右上角即可分享
微信分享提示