2014年8月24日

hive 分配map数过少导致任务执行慢

摘要: 数据表大概150M,但是只有几个字段,导致行数特别多,当使用正则表达式去匹配时执行较慢。解决思路:增大map数; //设置reduce数为150,将原表分成150份,map数无法直接设置,因为和输入文件数和文件大小等几个参数决定set mapred.reduce.tasks = 150;//在map... 阅读全文

posted @ 2014-08-24 14:00 a_badegg 阅读(2827) 评论(0) 推荐(0) 编辑

利用mapreduce清洗日志内存不足问题

摘要: package com.libc;import java.io.IOException;import java.io.UnsupportedEncodingException;import java.util.HashMap;import java.util.Iterator;import java... 阅读全文

posted @ 2014-08-24 11:37 a_badegg 阅读(625) 评论(0) 推荐(0) 编辑

2014年8月22日

win7+cygwin+hadoop+eclipse

摘要: 1、Cygwin :Net 下的:openssh,opensslBase 下的:sed (若需要Eclipse,必须sed)默认即可Devel 下的:subversion(建议安装) 2、jdk 安装后在根目录解压jdk,并配置到环境变量:export PATH=$PATH:$JAVA... 阅读全文

posted @ 2014-08-22 22:34 a_badegg 阅读(117) 评论(0) 推荐(0) 编辑

2014年8月19日

python 格式化日期

摘要: #!/usr/bin/env pythonimport sysimport reimport datetimedd = '2014-08-10'da = datetime.datetime.strptime(dd,'%Y-%m-%d')res = datetime.datetime.strftime... 阅读全文

posted @ 2014-08-19 17:21 a_badegg 阅读(132) 评论(0) 推荐(0) 编辑

java 正则表达式抽取

摘要: package com.achun.test;import java.util.regex.Matcher;import java.util.regex.Pattern;public class T2 { public static void main(String[] args) { Strin... 阅读全文

posted @ 2014-08-19 16:21 a_badegg 阅读(137) 评论(0) 推荐(0) 编辑

2014年8月5日

创建自己的yum软件源(以Cloudera Hadoop的安装为例)

摘要: 、下载Cloudera Manager安装文件Cloudera Manager的可以从如下网址获得:http://archive.cloudera.com/cm4/installer/这里选择Cloudera Manager 最新版4.6.0.1http://archive.cloudera.com... 阅读全文

posted @ 2014-08-05 21:31 a_badegg 阅读(324) 评论(0) 推荐(0) 编辑

2014年7月23日

python 备份脚本

摘要: import osimport timesource= r"out_res.txt"target_dir= r"F:\python\Doc"target=target_dir+time.strftime('%Y%m%d%H%M%S')+'.zip'zip_commond="makecab %s %... 阅读全文

posted @ 2014-07-23 10:05 a_badegg 阅读(123) 评论(0) 推荐(0) 编辑

2014年7月22日

记hive select distinct 多列 误区一则

摘要: 当select distinct a,b,c时,只会对a、b、c都起作用,无法达到只顾虑多余的a列;根据hive官方网站说明:当有表a b10 110 210 3此时select a,b from test group by a是无法工作的,因为hive不知道你是要取第一行的b还是取最小的b,... 阅读全文

posted @ 2014-07-22 22:54 a_badegg 阅读(1819) 评论(0) 推荐(0) 编辑

2014年7月20日

hive 学习笔记精简

摘要: 创建表:drop table tcreate table if not exists t (t string) partitioned by (log_date string) row format delimited fields terminated by '\t' lines terminat... 阅读全文

posted @ 2014-07-20 17:48 a_badegg 阅读(268) 评论(0) 推荐(0) 编辑

(转)MapReduce 中的两表 join 几种方案简介

摘要: 1. 概述在传统数据库(如:MYSQL)中,JOIN操作是非常常见且非常耗时的。而在HADOOP中进行JOIN操作,同样常见且耗时,由于Hadoop的独特设计思想,当进行JOIN操作时,有一些特殊的技巧。本文首先介绍了Hadoop上通常的JOIN实现方法,然后给出了几种针对不同输入数据集的优化方法。... 阅读全文

posted @ 2014-07-20 17:47 a_badegg 阅读(194) 评论(0) 推荐(0) 编辑

导航