摘要: nohup和&后台运行,进程查看及终止 1.nohup 用途:不挂断地运行命令。 语法:nohup Command [ Arg … ] [ & ] 无论是否将 nohup 命令的输出重定向到终端,输出都将附加到当前目录的 nohup.out 文件中。 如果当前目录的 nohup.out 文件不可写, 阅读全文
posted @ 2019-04-30 14:38 兴风作浪 阅读(1227) 评论(0) 推荐(0) 编辑
摘要: 1、MultipleOutputFormat可以将相似的记录输出到相同的数据集。在写每条记录之前,MultipleOutputFormat将调用generateFileNameForKeyValue方法来确定需要写入的文件名。通常,我们都是继承MultipleTextOutputFormat类,来重 阅读全文
posted @ 2019-04-29 16:21 兴风作浪 阅读(824) 评论(0) 推荐(0) 编辑
摘要: Kafka设计的初衷是迅速处理短小的消息,一般10K大小的消息吞吐性能最好(可参见LinkedIn的kafka性能测试)。但有时候,我们需要处理更大的消息,比如XML文档或JSON内容,一个消息差不多有10-100M,这种情况下,Kakfa应该如何处理?针对这个问题,有以下几个建议: 最好的方法是不 阅读全文
posted @ 2019-04-24 15:03 兴风作浪 阅读(6842) 评论(0) 推荐(0) 编辑
摘要: (1)文件filename的内容 gsub函数用空串替换$和,再将结果输出到filename中。 (3)输出结果。 阅读全文
posted @ 2019-04-23 20:42 兴风作浪 阅读(5762) 评论(0) 推荐(0) 编辑
摘要: hive.exec.mode.local.auto 决定 Hive 是否应该自动地根据输入文件大小,在本地运行(在GateWay运行) true hive.exec.mode.local.auto.inputbytes.max 如果 hive.exec.mode.local.auto 为 true, 阅读全文
posted @ 2019-04-22 20:13 兴风作浪 阅读(3580) 评论(0) 推荐(0) 编辑
摘要: #### 题目要求计算文档a.txt中每一行中出现的数字个数并且要计算一下整个文档中一共出现了几个数字。例如a.txt内容如下:12aa*lkjskdjalskdflkskdjflkjj我们脚本名字为 ncount.sh, 运行它时:bash ncount.sh a.txt输出结果应该为:20sum 阅读全文
posted @ 2019-04-22 20:12 兴风作浪 阅读(20419) 评论(0) 推荐(0) 编辑
摘要: 在有些时候,想要控制hql执行的mapper,reducer个数,reducer设置过少,会导致每个reducer要处理的数据过多,这样可能会导致OOM异常,如果reducer设置过多,则会导致产生很多小文件,这样对任务的执行以及集群都不太好.通常情况下这两个参数都不需要手动设置,Hive会根据文件 阅读全文
posted @ 2019-04-22 20:09 兴风作浪 阅读(3235) 评论(0) 推荐(0) 编辑
摘要: linux中wc命令用法 Linux系统中的wc(Word Count)命令的功能为统计指定文件中的字节数、字数、行数,并将统计结果显示输出。 1.命令格式: wc [选项]文件... 2.命令功能: 统计指定文件中的字节数、字数、行数,并将统计结果显示输出。该命令统计指定文件中的字节数、字数、行数 阅读全文
posted @ 2019-04-22 20:08 兴风作浪 阅读(7113) 评论(0) 推荐(0) 编辑
摘要: 往hive分区表中插入数据时,如果需要创建的分区很多,比如以表中某个字段进行分区存储,则需要复制粘贴修改很多sql去执行,效率低。因为hive是批处理系统,所以hive提供了一个动态分区功能,其可以基于查询参数的位置去推断分区的名称,从而建立分区。 1.创建一个单一字段分区表 hive> creat 阅读全文
posted @ 2019-04-21 22:05 兴风作浪 阅读(1688) 评论(0) 推荐(0) 编辑
摘要: Hive的后端存储是HDFS,它对大文件的处理是非常高效的,如果合理配置文件系统的块大小,NameNode可以支持很大的数据量。但是在数据仓库中,越是上层的表其汇总程度就越高,数据量也就越小。而且这些表通常会按日期进行分区,随着时间的推移,HDFS的文件数目就会逐渐增加。 小文件带来的问题 关于这个 阅读全文
posted @ 2019-04-21 19:16 兴风作浪 阅读(5595) 评论(0) 推荐(0) 编辑