Hive,Pig,HBase 傻傻分不清楚

摘要: 看了几天的Hadoop生态系统,对Hive,Pig,HBase搞的有些糊涂,查阅时发现糊涂的不止我一个,如某个鸟问的帖子发表的疑问,when to use Hbase and when to use Hive?....请教了google,现总结如下:PigPig是一种数据流语言,用来快速轻松的处理巨大的数据。Pig包含两个部分:Pig Interface,Pig Latin。Pig可以非常方便的处理HDFS和HBase的数据,和Hive一样,Pig可以非常高效的处理其需要做的,通过直接操作Pig查询可以节省大量的劳动和时间。当你想在你的数据上做一些转换,并且不想编写MapReduce jobs 阅读全文
posted @ 2013-11-04 20:18 大 T 阅读(1181) 评论(0) 推荐(0) 编辑

Python 发送邮件

摘要: #!/bin/python#coding=utf-8#导入smtplib和MIMETextimport smtplibfrom email.mime.text import MIMEText##############要发给谁mailto_list=["xxxx@gmail.com"]######################设置服务器,用户名、口令以及邮箱的后缀mail_host="smtp.163.com"mail_user="xxxx@163.com"mail_pass="xxxxx"mail_postfi 阅读全文
posted @ 2013-11-03 22:57 大 T 阅读(251) 评论(0) 推荐(0) 编辑

Python 日期处理

摘要: #!/bin/python#coding=utf-8from datetime import datetimefrom datetime import timedelta###################格式化输出 Begin#######################date>>stringnow = datetime.now()print now.strftime('%Y-%m-%d %H:%M:%S')#string>>datestr_date='2013-11-02 16:26:23'd=datetime.strptime( 阅读全文
posted @ 2013-11-02 22:49 大 T 阅读(558) 评论(0) 推荐(0) 编辑

实现简单的通讯录

摘要: 简单的通讯录实现,A byte of Python的例子#!/bin/python#coding=utf8import ostry: import cPickle as pexcept: import pickle as pclass Person: def __init__(self,name,mobile='',email='',address=''): self.name = name self.mobile = mobile self.email = email self.address = address def modifyInfo( 阅读全文
posted @ 2013-10-30 23:05 大 T 阅读(266) 评论(0) 推荐(0) 编辑

创建文件备份

摘要: 一个简单的例子,A byte of Python的例子,利用系统自带的命令创建某些文件的备份,放入指定的目录中import osimport timesource = ['/home/dat/python/test1','/home/dat/python/test2']target_dir = '/home/dat/python/'today = target_dir+time.strftime('%Y%m%d')now = time.strftime('%H%M%S')comment = raw_input(&# 阅读全文
posted @ 2013-10-30 21:35 大 T 阅读(198) 评论(0) 推荐(0) 编辑

一些常用shell脚步

摘要: 在当前目录下循环建立N个文件#!/bin/bashfor i in $(seq 1 10)do name=$(printf test%02d.txt $i) touch $namedone列出最常用的10条历史命令#!/bin/bash #列出最常用的10条历史命令 printf "%-32s %-10s\n" 命令 次数cat ~/.bash_history | awk '{ list [$1] ++; } \ END { for (i in list ) { printf ("%-30s %-10s\n",i,list [i]); } }&# 阅读全文
posted @ 2013-10-30 20:34 大 T 阅读(157) 评论(0) 推荐(0) 编辑

Ubuntu下 Hadoop 1.2.1 配置安装

摘要: 尝试进入大数据领域开发,从目前最火的Hadoop入手是必须的,本文一步步记录了 Ubuntu 环境安装Hadoop 1.2.1 ,搭建单机模式以及伪分布式模式,希望对各位和我一样的菜鸟有所帮助,共同学习进步,欢迎交流。尝试2.1安装失败,由于文件结构不太一样缺乏相关资料,也非做运维的,遂放弃改用成熟的hadoop 1.2.1版本。----------------------------------------单机模式-----------------------------------------下载:hadoop-1.2.1.tar.gz解压:[plain]view plaincopytar 阅读全文
posted @ 2013-10-26 11:13 大 T 阅读(458) 评论(0) 推荐(0) 编辑

Pig简介

摘要: What is Pig?Pig 是一种探索大规模数据集的脚本语言,为了填补MapReduce开发周期长的缺点而产生。Pig是为批处理而设计的。如果只想查询一个大数据集中的一小部分数据,Pig的实现不会很好,因为它要扫描整个数据集或其中很大一部分。Pig包括两部分:描述数据流的语言,Pig Latin;运行Pig Latin的执行环境。安装与运行Pig下载:http://apache.fayea.com/apache-mirror/pig/pig-0.12.0/,下载当前最新版本。解压:tar -xvf pig-0.12.0.tar.gz移动:mv pig-0.12.0 /opt/设置环境变量: 阅读全文
posted @ 2013-10-20 23:12 大 T 阅读(421) 评论(0) 推荐(0) 编辑

MapReduce应用开发

摘要: MapReduce应用开发 阅读全文
posted @ 2013-10-18 14:19 大 T 阅读(138) 评论(0) 推荐(0) 编辑

Hadoop I/O

摘要: 数据完整性在MapReduce中使用压缩序列化/反序列化Hadoop使用自己的序列化格式Writable,Writable接口定义了两个方法:一个将其状态写到DataOutput二进制流,一个从DataOutput二进制流读取其状态。 阅读全文
posted @ 2013-10-18 14:06 大 T 阅读(103) 评论(0) 推荐(0) 编辑