随笔分类 - Hadoop
摘要:众所周知,修改hdfs-site.xml的属性 <property> <name>dfs.replication</name> <value>2</value> </property> 即可调整副本数量,但实际生产环境的时,发现直接在HDFS上传文件,副本数量确实是2,但如果使用hive进行操作,副
阅读全文
摘要:在linux时删除时出现: 原来是用户组是文件是用户组admin。 但是我们linux系统中没有admin用户。 这时使用hadoop即可执行操作,因为是批量原因,所以我这边是把所有的文件所有者修改成 root了:
阅读全文
摘要:1、hadoop集群使用的ucloud的uahdoop 2、是公司集群配置小,只有两台core节点,实际就是两台的datanode。 容量占用超过了80%,需要缩减副本以空出容量。 3、查看 可以看到,每个文件三个副本。 4、执行 将所有的已经上传的副本从3个变成了两个 5、再执行第三步脚本确认。
阅读全文
摘要:具体错误日志如下: 花了将近一天的时间,最终在这里找到解决办法: https://community.hortonworks.com/questions/37603/i-am-getting-outofmemory-while-inserting-the-data.html 我的hive表数据类型是
阅读全文
摘要:step1: 设置默认需要导出的hive数据库为defaultDatabase 在原集群中的任意节点上,新建“.hiverc”文件,加入如下内容: defaultDatabase可修改为需要迁移的其它名称 step2: 创建数据临时目录 step3: 生成数据导出脚本 执行如下命令生成数据导出脚本:
阅读全文
摘要:转自:http://blog.csdn.net/wisgood/article/details/39075883 作业提交到的队列:mapreduce.job.queuename 作业优先级:mapreduce.job.priority,优先级默认有5个:LOW VERY_LOW NORMAL(默认
阅读全文
摘要:转自:https://m.aliyun.com/yunqi/articles/79700 背景 使用过hadoop的人基本都会考虑集群里面资源的调度和优先级的问题,假设你现在所在的公司有一个大hadoop的集群,有很多不同的业务组同时使用。但是A项目组经常做一些定时的BI报表,B项目组则经常使用一些
阅读全文
摘要:转的这里的 首先先导出所有的table表 然后再使用hive内置语法导出hive表的建表语句,这里使用的是一个shell
阅读全文
摘要:错误如下: 我理解是做完ha后,hbase的coprocessor协处理需要做一下更新,解决办法如下: 参考: http://apache-kylin.74782.x6.nabble.com/Timeout-visiting-cube-td4843.html
阅读全文
摘要:map是配置mapred.max.split.size,来定义map处理文件的大小,默认是256000000字段,换算就是256M。 如果想增加map的并行度,那么就是减少map处理文件的大小即可。 即set mapred.max.split.size=xxx(更小的字节) reduce和map是一
阅读全文
摘要:本身我是这么运行的: 15 1 * * * /data/xx/shells/run.sh >> /data/xx/log/joblog/job.log 发现job.log中,没有打出hive的mapreduce日志来 最后解决办法是: 后边添加2>&1 ,意思是将标准错误输出重定向到标准输出,但是好
阅读全文
摘要:sudo -E -u hadoop /home/hadoop/bin/hdfs haadmin -getServiceState nn1 sudo -E -u hadoop /home/hadoop/bin/hdfs haadmin -getServiceState nn2 sudo -E 加大E是
阅读全文
摘要:转自:http://blog.csdn.net/wzy0623/article/details/73650053 一、为什么要用到Flume 在以前搭建HAWQ数据仓库实验环境时,我使用Sqoop抽取从MySQL数据库增量抽取数据到HDFS,然后用HAWQ的外部表进行访问。这种方式只需要很少量的配置
阅读全文
摘要:hadoop fsck /user/hive/warehouse/dataplat.db/hive_datacppa2xsourcendchinaraw/partitiondate=2016-11-29/info.log2016-11-29 -files -blocks -locations
阅读全文
摘要:大概逻辑是先上传hdfs数据,然后创建hive外部表,关联到hdfs上传数据的位置。 截图比较概要,但是用起来很简单 1、创建路径和上传文件 2、创建外部表
阅读全文
摘要:http://ju.outofmemory.cn/entry/237491 Overview 最近一段时间都在搞集群迁移。最早公司的hadoop数据集群实在阿里云上的,机器不多,大概4台的样子,据说每个月要花7000多。从成本的角度,公司采购了4台2手服务器(E5-2420 v2 * 2+96G内存
阅读全文
摘要:http://www.cnblogs.com/errorx/p/3779578.html 1.准备工作 jdk: eclipse: Maven: libprotoc :https://developers.google.com/protocol-buffers/ hadoop:http://www.
阅读全文
摘要:hdfs fsck / 副本数量 hdfs dfsadmin -report hdfs大小
阅读全文
摘要:hdfs快占满了,所以为节点中添加新的磁盘(这块是个教训,以后用新的节点时,磁盘需要一次性插满,省得后续再添加磁盘了) 注意: 添加磁盘时,不仅仅datanode在配置时添加节点,nodemanager也同时需要添加的。 然后需要在CHM中修改配置(我这边出现了一个特殊情况,有一台机器硬盘口坏了,所
阅读全文