05 2016 档案
摘要:【场景】: 需要定期运行Hadoop的MapReduce 【解决办法】: 编写一个运行MapReduce的Shell脚本。然后使用crontab配置定时任务。 【Shell脚本】 #!/usr/bin/env bashsource /etc/profileecho "TimeLimitDrawn S
阅读全文
摘要:2016/5/20: 经过上级指示,为了MR性能调优,需要截取MR的服务器的线程堆栈(Thread Dump) 战友介绍的方法是这样的: ①、使用ps命令【ps -ef | grep java】过滤出所有的Java进程(毕竟MapReduce是运行在JVM中的) ②、从Java进程中找到MR的运行进
阅读全文
摘要:尝试了一个没有Reduce的MapReduce。 【应用场景】: 从Hbase的A表中进行数据抽样,直接输出到B表中。 这种场景下,相当于只进行了一个数据检索,本来是用Hive就可以实现,但是考虑到业务上的复杂性,使用了只有Map的一个Job。 相当于一个SQL文的Select语句的感觉。 【Job
阅读全文
摘要:使用Load语句执行数据的导入 --将操作系统上的文件student01.txt数据导入到t2表中 load data local inpath '/root/data/student01.txt' into table t2; --将操作系统上/root/data文件夹下的所有文件导入t3表中,并
阅读全文