Hdfs - 随笔分类 - HarkLee

hdfs副本调整不生效

摘要：众所周知，修改hdfs-site.xml的属性 <property> <name>dfs.replication</name> <value>2</value> </property> 即可调整副本数量，但实际生产环境的时，发现直接在HDFS上传文件，副本数量确实是2，但如果使用hive进行操作，副阅读全文

posted @ 2020-12-31 15:26 HarkLee 阅读(467) 评论(0) 推荐(0) 编辑

hue创建的hdfs数据在hdfs无法删除的问题。

摘要：在linux时删除时出现：原来是用户组是文件是用户组admin。但是我们linux系统中没有admin用户。这时使用hadoop即可执行操作，因为是批量原因，所以我这边是把所有的文件所有者修改成 root了：阅读全文

posted @ 2019-11-28 08:39 HarkLee 阅读(755) 评论(0) 推荐(0) 编辑

HDFS修改副本数，并生效。

摘要：1、hadoop集群使用的ucloud的uahdoop 2、是公司集群配置小，只有两台core节点，实际就是两台的datanode。容量占用超过了80%，需要缩减副本以空出容量。 3、查看可以看到，每个文件三个副本。 4、执行将所有的已经上传的副本从3个变成了两个 5、再执行第三步脚本确认。阅读全文

posted @ 2019-11-02 15:30 HarkLee 阅读(2988) 评论(1) 推荐(0) 编辑

HSDF查看各级目录的大小

摘要：hadoop fs -du -h / 阅读全文

posted @ 2019-04-29 10:01 HarkLee 阅读(373) 评论(0) 推荐(0) 编辑

查看name的状态，是属于active还是standby

摘要：sudo -E -u hadoop /home/hadoop/bin/hdfs haadmin -getServiceState nn1 sudo -E -u hadoop /home/hadoop/bin/hdfs haadmin -getServiceState nn2 sudo -E 加大E是阅读全文

posted @ 2017-06-27 13:39 HarkLee 阅读(363) 评论(0) 推荐(0) 编辑

利用Flume将MySQL表数据准实时抽取到HDFS

摘要：转自：http://blog.csdn.net/wzy0623/article/details/73650053 一、为什么要用到Flume 在以前搭建HAWQ数据仓库实验环境时，我使用Sqoop抽取从MySQL数据库增量抽取数据到HDFS，然后用HAWQ的外部表进行访问。这种方式只需要很少量的配置阅读全文

posted @ 2017-06-27 08:38 HarkLee 阅读(15455) 评论(0) 推荐(0) 编辑

hdfs中block的使用情况，副本所在情况等等

摘要：hadoop fsck /user/hive/warehouse/dataplat.db/hive_datacppa2xsourcendchinaraw/partitiondate=2016-11-29/info.log2016-11-29 -files -blocks -locations 阅读全文

posted @ 2016-11-30 15:55 HarkLee 阅读(354) 评论(0) 推荐(0) 编辑

使用Hue上传hive数据

摘要：大概逻辑是先上传hdfs数据，然后创建hive外部表，关联到hdfs上传数据的位置。截图比较概要，但是用起来很简单 1、创建路径和上传文件 2、创建外部表阅读全文

posted @ 2016-09-26 16:03 HarkLee 阅读(5848) 评论(1) 推荐(0) 编辑

清空回收站数据

摘要：sudo -u hive hdfs dfs -rmr /user/hive/.Trash/* 因为大多删除数据，是都通过hive权限做的删除，所以回收站数据在/user/hive下边的.Trash。所以删除的时候也要使用hive权限。例如用的是root删除做删除，那么会发现删除的数据就变化到了/ 阅读全文

posted @ 2016-08-11 10:24 HarkLee 阅读(750) 评论(1) 推荐(0) 编辑

sudo -u hdfs hdfs balancer出现异常 No lease on /system/balancer.id

摘要：问题待解决阅读全文

posted @ 2016-06-03 07:53 HarkLee 阅读(2641) 评论(0) 推荐(0) 编辑

【原创】CDM添加新磁盘，然后负载

摘要：hdfs快占满了，所以为节点中添加新的磁盘（这块是个教训，以后用新的节点时，磁盘需要一次性插满，省得后续再添加磁盘了）注意：添加磁盘时，不仅仅datanode在配置时添加节点，nodemanager也同时需要添加的。然后需要在CHM中修改配置（我这边出现了一个特殊情况，有一台机器硬盘口坏了，所阅读全文

posted @ 2016-05-19 09:09 HarkLee 阅读(339) 评论(0) 推荐(0) 编辑

【转】Hadoop集群添加磁盘步骤

摘要：转自：http://blog.csdn.net/huyuxiang999/article/details/17691405 一、实验环境： 1、硬件：3台DELL服务器，CPU：2.27GHz*16，内存：16GB，一台为master，另外2台为slave。 2、系统：均为CentOS6.3 3、阅读全文

posted @ 2016-05-19 08:49 HarkLee 阅读(5445) 评论(0) 推荐(0) 编辑

【转】HADOOP HDFS BALANCER介绍及经验总结

摘要：转自：http://www.aboutyun.com/thread-7354-1-1.html 集群平衡介绍 Hadoop的HDFS集群非常容易出现机器与机器之间磁盘利用率不平衡的情况，比如集群中添加新的数据节点。当HDFS出现不平衡状况的时候，将引发很多问题，比如MR程序无法很好地利用本地计算的优阅读全文

posted @ 2016-05-18 18:43 HarkLee 阅读(2125) 评论(0) 推荐(0) 编辑

HDFS机架感知功能原理（rack awareness）

摘要：转自：http://www.jianshu.com/p/372d25352d3a HDFS NameNode对文件块复制相关所有事物负责，它周期性接受来自于DataNode的HeartBeat和BlockReport信息，HDFS文件块副本的放置对于系统整体的可靠性和性能有关键性影响。一个简单但非阅读全文

posted @ 2016-05-18 18:40 HarkLee 阅读(3169) 评论(0) 推荐(0) 编辑

如何修改HDFS的备份数

摘要：我这个是看别人发的，记录一下，解决办法如下：阅读全文

posted @ 2015-10-19 11:49 HarkLee 阅读(1242) 评论(0) 推荐(0) 编辑

Hadoop基准测试

摘要：其实就是从网络上copy的吧，在这里做一下记录这个是看一下有哪些测试方式：hadoop jar /opt/cloudera/parcels/CDH-5.3.6-1.cdh5.3.6.p0.11/jars/hadoop-mapreduce-client-jobclient-2.5.0-cdh5.3.6... 阅读全文

posted @ 2015-09-17 17:49 HarkLee 阅读(753) 评论(0) 推荐(0) 编辑

ORCFILE,ParquetFile,CubeFile使用场景区别

摘要：这个其实是转自杭州第三次spark meetingup，华为的李昆大神的分享。 OLAP分析场景ORCFileParquetFileCubeFileFullscanonedimensionFastFastMedian(LowCardinality)(只扫需要的列)(只扫需要的列)(只扫需要的列... 阅读全文

posted @ 2015-04-22 16:05 HarkLee 阅读(1207) 评论(0) 推荐(0) 编辑

CDH中HDFS的WEB UI外网无法访问的问题

摘要：文章来自：http://www.cnblogs.com/hark0623/p/4177794.html转载请注明其实问题很简单，因为在CDH中hdfs-site.xml配置文件中WEB UI配置的是域名，而域名在Hosts又被解析成内网IP。你使用netstat -apn | grep 50700看... 阅读全文

posted @ 2014-12-22 11:22 HarkLee 阅读(6926) 评论(1) 推荐(1) 编辑

HarkLee

打酱油

随笔分类 - Hdfs

公告

搜索

常用链接

我的标签

随笔分类

随笔档案

文章分类

阅读排行榜

评论排行榜

推荐排行榜

最新评论