a_badegg - 博客园

hive 分配map数过少导致任务执行慢

摘要：数据表大概150M，但是只有几个字段，导致行数特别多，当使用正则表达式去匹配时执行较慢。解决思路：增大map数; //设置reduce数为150，将原表分成150份，map数无法直接设置，因为和输入文件数和文件大小等几个参数决定set mapred.reduce.tasks = 150;//在map... 阅读全文

posted @ 2014-08-24 14:00 a_badegg 阅读(2827) 评论(0) 推荐(0) 编辑

利用mapreduce清洗日志内存不足问题

摘要： package com.libc;import java.io.IOException;import java.io.UnsupportedEncodingException;import java.util.HashMap;import java.util.Iterator;import java... 阅读全文

posted @ 2014-08-24 11:37 a_badegg 阅读(625) 评论(0) 推荐(0) 编辑

win7+cygwin+hadoop+eclipse

摘要： 1、Cygwin ：Net 下的：openssh,opensslBase 下的：sed （若需要Eclipse，必须sed）默认即可Devel 下的：subversion（建议安装） 2、jdk 安装后在根目录解压jdk，并配置到环境变量：export PATH=$PATH:$JAVA... 阅读全文

posted @ 2014-08-22 22:34 a_badegg 阅读(117) 评论(0) 推荐(0) 编辑

python 格式化日期

摘要： #!/usr/bin/env pythonimport sysimport reimport datetimedd = '2014-08-10'da = datetime.datetime.strptime(dd,'%Y-%m-%d')res = datetime.datetime.strftime... 阅读全文

posted @ 2014-08-19 17:21 a_badegg 阅读(132) 评论(0) 推荐(0) 编辑

java 正则表达式抽取

摘要： package com.achun.test;import java.util.regex.Matcher;import java.util.regex.Pattern;public class T2 { public static void main(String[] args) { Strin... 阅读全文

posted @ 2014-08-19 16:21 a_badegg 阅读(137) 评论(0) 推荐(0) 编辑

创建自己的yum软件源（以Cloudera Hadoop的安装为例）

摘要：、下载Cloudera Manager安装文件Cloudera Manager的可以从如下网址获得：http://archive.cloudera.com/cm4/installer/这里选择Cloudera Manager 最新版4.6.0.1http://archive.cloudera.com... 阅读全文

posted @ 2014-08-05 21:31 a_badegg 阅读(324) 评论(0) 推荐(0) 编辑

python 备份脚本

摘要： import osimport timesource= r"out_res.txt"target_dir= r"F:\python\Doc"target=target_dir+time.strftime('%Y%m%d%H%M%S')+'.zip'zip_commond="makecab %s %... 阅读全文

posted @ 2014-07-23 10:05 a_badegg 阅读(123) 评论(0) 推荐(0) 编辑

记hive select distinct 多列误区一则

摘要：当select distinct a,b,c时，只会对a、b、c都起作用，无法达到只顾虑多余的a列；根据hive官方网站说明：当有表a b10 110　210 3此时select a,b from test group by a是无法工作的，因为hive不知道你是要取第一行的b还是取最小的b，... 阅读全文

posted @ 2014-07-22 22:54 a_badegg 阅读(1819) 评论(0) 推荐(0) 编辑

hive 学习笔记精简

摘要：创建表：drop table tcreate table if not exists t (t string) partitioned by (log_date string) row format delimited fields terminated by '\t' lines terminat... 阅读全文

posted @ 2014-07-20 17:48 a_badegg 阅读(268) 评论(0) 推荐(0) 编辑

（转）MapReduce 中的两表 join 几种方案简介

摘要： 1. 概述在传统数据库（如：MYSQL）中，JOIN操作是非常常见且非常耗时的。而在HADOOP中进行JOIN操作，同样常见且耗时，由于Hadoop的独特设计思想，当进行JOIN操作时，有一些特殊的技巧。本文首先介绍了Hadoop上通常的JOIN实现方法，然后给出了几种针对不同输入数据集的优化方法。... 阅读全文

posted @ 2014-07-20 17:47 a_badegg 阅读(194) 评论(0) 推荐(0) 编辑