2017年7月19日

Azkaban编译

摘要: Azkaban 调度系统,比常用的oozie要人性化好多,可视化界面也不是一个级别的 Azkaban github地址:https://github.com/azkaban/azkaban Azkaban 使用的gradle进行管理 由于Azkaban 有一些C语言开发的组件编译的时候需要依赖 gc 阅读全文

posted @ 2017-07-19 15:14 奏乐 阅读(542) 评论(0) 推荐(0) 编辑

2016年7月7日

基于hive的transform实现自定义分隔符数据导出

摘要: 1、建表语句 2、数据准备 3、加载数据 4、编写transform脚本 5、使用 hive -e 'sql' > result.data 进行数据导出 注: using 字句后面执行的python脚本的第一个参数 ^ 为分隔符 导出的结果: 摆渡人影院 阅读全文

posted @ 2016-07-07 15:00 奏乐 阅读(2138) 评论(0) 推荐(0) 编辑

MapReduce优化设置

摘要: Map阶段的优化 主要是确定合适的Map数。那么首先要了解Map数的计算公式: num_Map_tasks = max[${Mapred.min.split.size}, min(${dfs.block.size}, ${Mapred.max.split.size})] Mapred.min.spl 阅读全文

posted @ 2016-07-07 11:37 奏乐 阅读(643) 评论(0) 推荐(0) 编辑

hive.groupby.skewindata环境变量与负载均衡

摘要: HiveQL 去重操作和SQL一样,HiveQL中同样支持DISTINCT操作,如下示例:(1) SELECT count(DISTINCT uid) FROM log(2) SELECT ip, count(DISTINCT uid) FROM log GROUP BY ip(3) SELECT 阅读全文

posted @ 2016-07-07 11:34 奏乐 阅读(5271) 评论(0) 推荐(0) 编辑

hive的基本操作

摘要: 原文地址:http://www.91baidu.ren/post/baiduren/480.html 添加分区 ALTER TABLE table_name ADD PARTITION (partCol = 'value1') location 'loc1'; //示例 ALTER TABLE ta 阅读全文

posted @ 2016-07-07 11:31 奏乐 阅读(796) 评论(0) 推荐(0) 编辑

Shell 数组的定义和使用

摘要: 定义数组 在Shell中,用括号来表示数组,数组元素用“空格”符号分割开。定义数组的一般形式为: array_name=(value1 ... valuen)例如: array_name=(value0 value1 value2 value3)或者 array_name=(value0value1 阅读全文

posted @ 2016-07-07 11:27 奏乐 阅读(559) 评论(0) 推荐(0) 编辑

Linux文件比较,文本文件的交集、差集与求差

摘要: comm命令comm命令可以用于两个文件之间的比较,它有一些选项可以用来调整输出,以便执行交集、求差、以及差集操作。•交集:打印出两个文件所共有的行。•求差:打印出指定文件所包含的且不相同的行。•差集:打印出包含在一个文件中,但不包含在其他指定文件中的行。[root@localhost text]# 阅读全文

posted @ 2016-07-07 11:25 奏乐 阅读(278) 评论(0) 推荐(0) 编辑

Crontab 表达式详解

摘要: 一个cron表达式有至少6个(也可能7个,6个比7个少元素秒)由空格分隔的时间元素。从左往右按顺序依次为 秒(0~59) 分(0~59) 时(0~23)日(0~31,但是你需要考虑你月的天数)月(0~11)周(0~6 0=SUN 或 SUN,MON,TUE,WED,THU,FRI,SAT)年(197 阅读全文

posted @ 2016-07-07 11:22 奏乐 阅读(6624) 评论(0) 推荐(1) 编辑

Hadoop, HBase, Hive, ZooKeeper默认端口说明

摘要: 所有端口协议均基于TCP。 对于存在Web UI(HTTP服务)的所有hadoop daemon,有如下url: /logs 日志文件列表,用于下载和查看 /logLevel 允许你设定log4j的日志记录级别,类似于hadoop daemonlog /stacks 所有线程的stack trace 阅读全文

posted @ 2016-07-07 11:18 奏乐 阅读(20377) 评论(0) 推荐(1) 编辑

2016年6月16日

Hadoop的fsck命令详解

摘要: hadoop fsck Usage: DFSck <path> [-move | -delete | -openforwrite] [-files [-blocks [-locations | -racks]]] <path> 检查这个目录中的文件是否完整 -move 破损的文件移至/lost+fo 阅读全文

posted @ 2016-06-16 13:41 奏乐 阅读(3726) 评论(0) 推荐(0) 编辑

导航