摘要: 图4.5细节化的Hadoop MapReduce数据流 图4.5展示了流线水中的更多机制。虽然只有2个节点,但相同的流水线可以复制到跨越大量节点的系统上。下去的几个段落会详细讲述MapReduce程序的各个阶段。1.输入文件: 文件是MapReduce任务的数据的初始存储地。正常情况下,输入文件一般是存在HDFS里。这些文件的格式可以是任意的;我们可以使用基于行的日志文件,也可以使用二进制格式,多行输入记录或其它一些格式。这些文件会很大—数十G或更大。2. 输入格式:InputFormat类定义了如何分割和读取输入文件,它提供有下面的几个功能:选择作为输入的文件或对象;定义把文件划分到任务的. 阅读全文
posted @ 2013-08-26 11:17 vincent_hv 阅读(667) 评论(0) 推荐(0) 编辑
摘要: 一、HDFSHDFS全称是Hadoop Distributed System。HDFS是为以流的方式存取大文件而设计的。适用于几百MB,GB以及TB,并写一次读多次的场合。而对于低延时数据访问、大量小文件、同时写和任意的文件修改,则并不是十分适合。目前HDFS支持的使用接口除了Java的还有,Thrift、C、FUSE、WebDAV、HTTP等。HDFS是以block-sized chunk组织其文件内容的,默认的block大小为64MB,对于不足64MB的文件,其会占用一个block,但实际上不用占用实际硬盘上的64MB,这可以说是HDFS是在文件系统之上架设的一个中间层。之所以将默认的bl 阅读全文
posted @ 2013-08-26 10:15 vincent_hv 阅读(616) 评论(0) 推荐(0) 编辑
摘要: 基本概念RDDspark最大的亮点是提出RDD(Resilient Distributed Dataset)的概念,也就是可伸缩的分布式数据集合,本身只读,可恢复。spark本身不做物理储存,通过保存足够的信息去实际的储存中计算出RDDRDD只要通过四种途径获取:1、从共享的文件系统,比如HDFS2、在驱动程序里的并行scala集合(例如数组),会发到多个节点上3、从已存在的RDD转换4、通过改变现有的RDD持久性。rdd是一个懒散,短暂的。改变一个RDD的持久化通过两个动作:cache:在第一次计算的时候保存在内存中,可以重用save:保存到一个分布式文件系统,比如hdfs,这个保存版本会用 阅读全文
posted @ 2013-08-23 19:26 vincent_hv 阅读(420) 评论(0) 推荐(0) 编辑
摘要: 一、概述1.轻:(1)采用语言简洁的scala编写;(2)利用了hadoop和mesos的基础设施2.快:spark的内存计算、数据本地性和传输优化、调度优化,使其在迭代机器学习,ad-hoc query、图计算等方面是hadoop的MapReduce、hive和Pregel无法比拟的3.灵:(1)实现层:完美演绎了Scala trait动态混入策略(如可更换的集群调度器、序列化库);(2)原语层:允许款站新的数据算子(operator)、新的数据源、新的language bindings;(3)范式层:支持内存计算、多迭代批处理、即席查询、流处理和图计算等4.巧:与Hadoop无缝结合;数据 阅读全文
posted @ 2013-08-23 18:46 vincent_hv 阅读(970) 评论(0) 推荐(0) 编辑
摘要: 环境:CentOS 6.4, Hadoop 1.1.2, JDK 1.7, Spark 0.7.2, Scala 2.9.31. 安装 JDK 1.7yum search openjdk-develsudo yum install java-1.7.0-openjdk-devel.x86_64/usr/sbin/alternatives --config java/usr/sbin/alternatives --config javacsudo vim /etc/profile# add the following lines at the endexport JAVA_HOME=/usr/l 阅读全文
posted @ 2013-08-17 08:58 vincent_hv 阅读(684) 评论(0) 推荐(0) 编辑
摘要: 1、WPS For Linux 2013 还是只提供了32位版本,我用的是 64位 Ubuntu,如果您也是64位系统,还需要提前安装一些32位的库文件。sudo apt-get install i32-libs2、下载并安装WPS For Linux 2013wget http://wdl.cache.ijinshan.com/wps/download/Linux/unstable/kingsoft-office_9.1.0.4032~a10_i386.debsudo dpkg -i --force-all kingsoft-office_9.1.0.4032~a10_i386.deb3、在 阅读全文
posted @ 2013-08-17 08:50 vincent_hv 阅读(599) 评论(0) 推荐(0) 编辑
摘要: ubuntu12.04 gedit 打开 windows 分区中的 txt 文件乱码,是因为 ubuntu 和 windows 两个系统的编码不同。解决办法:终端里依次输入以下2 条命令即可:代码:gsettings set org.gnome.gedit.preferences.encodings auto-detected "['GB18030', 'GB2312', 'GBK', 'UTF-8', 'BIG5', 'CURRENT', 'UTF-16']"代 阅读全文
posted @ 2013-06-19 22:29 vincent_hv 阅读(364) 评论(0) 推荐(0) 编辑
摘要: 异常处理 1 /** 2 *异常: 就是程序在运行时出现不正常情况 3 *异常由来: 问题也是现实生活中的事物,也可以通过java类的形式进行描述,并进行封装. 4 * 5 *对于问题的划分: 6 * 1: 严重的问题 (Error) : java通过Error类进行描述,一般不编写针对性的代码进行处理 7 * 2: 非严重的问题 (Exception): java通过Exception类进行描述,一般使用针对性的处理方式进行处理 8 * 9 *无论 Error 或者 Exception 都具有一些共性的内容10 *比如: 不正常的情况信息,引发原因等... 阅读全文
posted @ 2013-05-08 14:22 vincent_hv 阅读(260) 评论(0) 推荐(0) 编辑
摘要: Libre Office 运行需要JRE环境,所以要在Ubuntu 12.04中安装jre环境,如果已安装则跳过此步sudo apt-get -y install openjdk-6-jre一、下载在官网下载最新版本的libreoffice 官网:http://zh-cn.libreoffice.org/download/有三个包第一个:主安装文件第二个:语言包第三个:内建help按照上面的排列顺序逐个安装,安装顺序不要颠倒,免得造成不必要的麻烦,造成有安装包会冲突。1、安装主程序执行如下命令tar -xvf LibreOffice_4.0.0_Linux_x86_deb.tarcd /hom 阅读全文
posted @ 2013-04-25 18:20 vincent_hv 阅读(346) 评论(0) 推荐(0) 编辑
摘要: “吸血鬼数字”就是指位数为偶数的数字(我们算得是4位的),可以由一对数字相乘而得到,而这对数字各包含乘积的一半位数字,其中从偶数位数字中选取的数字可以任意排列。以两个0截尾的数字是不允许的。例如:1260=21*60 1827=21*87 2187=27*81今天在Thinking in JAVA 中做到的练习题。网上找到的比较好的算法: 1 public class Test10 { 2 public static void main(String[] args) { 3 String[] ar_str1, ar_str2; 4 int sum = 0... 阅读全文
posted @ 2013-04-19 09:49 vincent_hv 阅读(2128) 评论(0) 推荐(0) 编辑
摘要: 进入eclipse目录,修改eclipse.init-serverplugins/org.eclipse.equinox.launcher_1.3.0.v20120522-1813.jar--launcher.libraryplugins/org.eclipse.equinox.launcher.win32.win32.x86_64_1.1.200.v20120913-144807-showsplashorg.eclipse.platform--launcher.XXMaxPermSize256m--launcher.defaultActionopenFile-vmargs-Xms256m-X 阅读全文
posted @ 2013-04-09 12:28 vincent_hv 阅读(248) 评论(0) 推荐(0) 编辑
摘要: 1、备份sudocp/boot/grub/grub.cfg/boot/grub/grub.cfg.bak然后,打开grub配置文档sudogedit/boot/grub/grub.cfg2、其中settimeout=10:表示默认等待时间,单位是秒;setdefault="0":表示默认的启动项,“0”表示第一个,依次类推。3、建议使用快捷键进行查找,即“ctrl+f",gedit将会高亮标记出对应文本,能更快、更准确找到文本对应位置,并减少错误的发生。4、时间自行修改,不多说。这里以把Windows设为默认启动系统为例简单说一下:网上一些说法是:找到window 阅读全文
posted @ 2013-04-08 09:08 vincent_hv 阅读(1046) 评论(0) 推荐(0) 编辑
摘要: 在Ubuntu 12.04 下, eclipse 安装 svn插件一般会遇到两个问题:1)Failed to load JavaHL Library.These are the errors that were encountered:no libsvnjavahl-1 in java.library.pathno svnjavahl-1 in java.library.pathno svnjavahl in java.library.pathjava.library.path = /usr/lib/jni按照以前的装法1、sudo apt-get install libsvn-java2、e 阅读全文
posted @ 2013-03-28 17:07 vincent_hv 阅读(386) 评论(0) 推荐(0) 编辑
摘要: windows下eclipse默认文档编码为GBK,而ubuntu下的默认文档编码为utf-8. 增加GBK 编码 打开终端,输入sudo gedit/var/lib/locales/supported.d/local 在打开的界面中添加zh_CN.GBK GBK zh_CN.GB2312 GB2312 保存并关闭文档,然后在终端中输入:sudo dpkg-reconfigure --force locales 下载完成后,即可设置eclipse中的编码:Window->Preferences 选择General标签下的Workspace,将Text file encoding 改成Ot 阅读全文
posted @ 2013-03-28 15:57 vincent_hv 阅读(425) 评论(0) 推荐(0) 编辑
摘要: IT技术的发展日新月异,新技术层出不穷,具有良好的学习能力,能及时获取新知识、随时补充和丰富自己,已成为程序员职业发展的核心竞争力。本文中,作者结合多年的学习经验总结出了提高程序员学习能力的三个要点。众所周知,现在是一个知识爆炸的时代,知识更新非常快。据测算,一个大学毕业生所学到的知识,在毕业之后2年内,有效的不过剩下5%。对于软件行业而言,这种形势更为明显,我们赖以立足的,不在于我们现在掌握了多少知识,而是我们有多强的学习能力。学习人人都会,但不同的人学习效果却千差万别。一个善于学习的人,首先应该是一个善于读书的人,懂得如何高效地学习,并且拥有良好的心态。唯有如此,才能成为一个卓有成效的学习 阅读全文
posted @ 2013-03-21 13:06 vincent_hv 阅读(220) 评论(0) 推荐(0) 编辑