摘要:简单的通讯录实现,A byte of Python的例子#!/bin/python#coding=utf8import ostry: import cPickle as pexcept: import pickle as pclass Person: def __init__(self,name,mobile='',email='',address=''): self.name = name self.mobile = mobile self.email = email self.address = address def modifyInfo(
阅读全文
摘要:一个简单的例子,A byte of Python的例子,利用系统自带的命令创建某些文件的备份,放入指定的目录中import osimport timesource = ['/home/dat/python/test1','/home/dat/python/test2']target_dir = '/home/dat/python/'today = target_dir+time.strftime('%Y%m%d')now = time.strftime('%H%M%S')comment = raw_input(
阅读全文
摘要:在当前目录下循环建立N个文件#!/bin/bashfor i in $(seq 1 10)do name=$(printf test%02d.txt $i) touch $namedone列出最常用的10条历史命令#!/bin/bash #列出最常用的10条历史命令 printf "%-32s %-10s\n" 命令 次数cat ~/.bash_history | awk '{ list [$1] ++; } \ END { for (i in list ) { printf ("%-30s %-10s\n",i,list [i]); } }
阅读全文
摘要:尝试进入大数据领域开发,从目前最火的Hadoop入手是必须的,本文一步步记录了 Ubuntu 环境安装Hadoop 1.2.1 ,搭建单机模式以及伪分布式模式,希望对各位和我一样的菜鸟有所帮助,共同学习进步,欢迎交流。尝试2.1安装失败,由于文件结构不太一样缺乏相关资料,也非做运维的,遂放弃改用成熟的hadoop 1.2.1版本。----------------------------------------单机模式-----------------------------------------下载:hadoop-1.2.1.tar.gz解压:[plain]view plaincopytar
阅读全文
摘要:What is Pig?Pig 是一种探索大规模数据集的脚本语言,为了填补MapReduce开发周期长的缺点而产生。Pig是为批处理而设计的。如果只想查询一个大数据集中的一小部分数据,Pig的实现不会很好,因为它要扫描整个数据集或其中很大一部分。Pig包括两部分:描述数据流的语言,Pig Latin;运行Pig Latin的执行环境。安装与运行Pig下载:http://apache.fayea.com/apache-mirror/pig/pig-0.12.0/,下载当前最新版本。解压:tar -xvf pig-0.12.0.tar.gz移动:mv pig-0.12.0 /opt/设置环境变量:
阅读全文
摘要:数据完整性在MapReduce中使用压缩序列化/反序列化Hadoop使用自己的序列化格式Writable,Writable接口定义了两个方法:一个将其状态写到DataOutput二进制流,一个从DataOutput二进制流读取其状态。
阅读全文
摘要:HDFS的设计:流式数据访问:HDFS的构建思路:一次写入多次读取时最高效的访问模式。HDFS的概念:HDFS的块:默认64M。设计如此之大目的是为了最小化寻址开销。如果设置的足够大,磁盘传输数据的时间将明显大于寻址时间,这样一个由多个块组成的文件时间取决于磁盘传输速率。Namenode和Datanode:HDFS有两类节点,并以管理者-工作者模式运行,即一个Namenode和多个Datanode。Namenode管理文件系统的命名空间,它维护着文件系统树,及整棵树内所有文件和目录,这些信息以命名空间镜像文件和编辑日志文件永久保存在本地磁盘。Namenode也记录每个文件中各个块所在的节点信息
阅读全文
摘要:角色:执行MapReduce任务的角色:JobTracker,TaskTracker,一个Hadoop集群只有一个JobTracker,JobTracker负责管理和调度工作,TaskTracker负责执行工作。数据流: MapReduce工作的简易图 一个Reduce任务的MapReduce数据流 多个Reduce任务的MapReduce数据流 ...
阅读全文
摘要:古代,人们用牛来拉重物。当一头牛拉不动一根圆木时,他们不曾想过培育 更大更壮的牛。同样,我们也不需要尝试开发超级计算机,而应试着结合使用更多计算机系统。什么是Hadoop:Hadoop提供了一个可靠的共享存储和分析系统。包括两大核心功能,存储层:HDFS一个分布式文件系统,处理层:MapReduce一个分布式并行计算框架。Hadoop适合进行巨大的离线批处理数据,不适合实时任务为什么需要Hadoop:1.海量数据爆发...磁盘的容量快速增长,但是磁盘的访问速度却未与时俱进。2.由于磁盘限制导致关系型数据库无法对大规模数据进行批量分析。什么是MapReduce:MapReduce是一个批量查询处
阅读全文