vincent_hv

2013年8月26日

摘要：图4.5细节化的Hadoop MapReduce数据流图4.5展示了流线水中的更多机制。虽然只有2个节点，但相同的流水线可以复制到跨越大量节点的系统上。下去的几个段落会详细讲述MapReduce程序的各个阶段。1.输入文件: 文件是MapReduce任务的数据的初始存储地。正常情况下，输入文件一般是存在HDFS里。这些文件的格式可以是任意的；我们可以使用基于行的日志文件，也可以使用二进制格式，多行输入记录或其它一些格式。这些文件会很大—数十G或更大。2. 输入格式:InputFormat类定义了如何分割和读取输入文件，它提供有下面的几个功能：选择作为输入的文件或对象；定义把文件划分到任务的. 阅读全文

posted @ 2013-08-26 11:17 vincent_hv 阅读(673) 评论(0) 推荐(0) 编辑

HDFS文件读写流程

摘要：一、HDFSHDFS全称是Hadoop Distributed System。HDFS是为以流的方式存取大文件而设计的。适用于几百MB，GB以及TB，并写一次读多次的场合。而对于低延时数据访问、大量小文件、同时写和任意的文件修改，则并不是十分适合。目前HDFS支持的使用接口除了Java的还有，Thrift、C、FUSE、WebDAV、HTTP等。HDFS是以block-sized chunk组织其文件内容的，默认的block大小为64MB，对于不足64MB的文件，其会占用一个block，但实际上不用占用实际硬盘上的64MB，这可以说是HDFS是在文件系统之上架设的一个中间层。之所以将默认的bl 阅读全文

posted @ 2013-08-26 10:15 vincent_hv 阅读(620) 评论(0) 推荐(0) 编辑

2013年8月23日

spark概论，补充

摘要：基本概念RDDspark最大的亮点是提出RDD(Resilient Distributed Dataset)的概念，也就是可伸缩的分布式数据集合，本身只读，可恢复。spark本身不做物理储存，通过保存足够的信息去实际的储存中计算出RDDRDD只要通过四种途径获取：1、从共享的文件系统，比如HDFS2、在驱动程序里的并行scala集合(例如数组)，会发到多个节点上3、从已存在的RDD转换4、通过改变现有的RDD持久性。rdd是一个懒散，短暂的。改变一个RDD的持久化通过两个动作：cache：在第一次计算的时候保存在内存中，可以重用save：保存到一个分布式文件系统，比如hdfs，这个保存版本会用阅读全文

posted @ 2013-08-23 19:26 vincent_hv 阅读(420) 评论(0) 推荐(0) 编辑

spark概论

摘要：一、概述1.轻：（1）采用语言简洁的scala编写；（2）利用了hadoop和mesos的基础设施2.快：spark的内存计算、数据本地性和传输优化、调度优化，使其在迭代机器学习，ad-hoc query、图计算等方面是hadoop的MapReduce、hive和Pregel无法比拟的3.灵：（1）实现层：完美演绎了Scala trait动态混入策略（如可更换的集群调度器、序列化库）；（2）原语层：允许款站新的数据算子（operator）、新的数据源、新的language bindings；（3）范式层：支持内存计算、多迭代批处理、即席查询、流处理和图计算等4.巧：与Hadoop无缝结合；数据阅读全文

posted @ 2013-08-23 18:46 vincent_hv 阅读(974) 评论(0) 推荐(0) 编辑

2013年8月17日

安装Spark集群(在CentOS上)

摘要：环境:CentOS 6.4, Hadoop 1.1.2, JDK 1.7, Spark 0.7.2, Scala 2.9.31. 安装 JDK 1.7yum search openjdk-develsudo yum install java-1.7.0-openjdk-devel.x86_64/usr/sbin/alternatives --config java/usr/sbin/alternatives --config javacsudo vim /etc/profile# add the following lines at the endexport JAVA_HOME=/usr/l 阅读全文

posted @ 2013-08-17 08:58 vincent_hv 阅读(684) 评论(0) 推荐(0) 编辑

Ubuntu安装wps for linux

摘要： 1、WPS For Linux 2013 还是只提供了32位版本，我用的是 64位 Ubuntu，如果您也是64位系统，还需要提前安装一些32位的库文件。sudo apt-get install i32-libs2、下载并安装WPS For Linux 2013wget http://wdl.cache.ijinshan.com/wps/download/Linux/unstable/kingsoft-office_9.1.0.4032~a10_i386.debsudo dpkg -i --force-all kingsoft-office_9.1.0.4032~a10_i386.deb3、在阅读全文

posted @ 2013-08-17 08:50 vincent_hv 阅读(602) 评论(0) 推荐(0) 编辑

2013年6月19日

ubuntu打开 txt 文件乱码

摘要： ubuntu12.04 gedit 打开 windows 分区中的 txt 文件乱码，是因为 ubuntu 和 windows 两个系统的编码不同。解决办法：终端里依次输入以下2 条命令即可：代码:gsettings set org.gnome.gedit.preferences.encodings auto-detected "['GB18030', 'GB2312', 'GBK', 'UTF-8', 'BIG5', 'CURRENT', 'UTF-16']"代阅读全文

posted @ 2013-06-19 22:29 vincent_hv 阅读(368) 评论(0) 推荐(0) 编辑

2013年5月8日

java异常处理

摘要：异常处理 1 /** 2 *异常: 就是程序在运行时出现不正常情况 3 *异常由来: 问题也是现实生活中的事物,也可以通过java类的形式进行描述,并进行封装. 4 * 5 *对于问题的划分: 6 * 1: 严重的问题 (Error) : java通过Error类进行描述,一般不编写针对性的代码进行处理 7 * 2: 非严重的问题 (Exception): java通过Exception类进行描述,一般使用针对性的处理方式进行处理 8 * 9 *无论 Error 或者 Exception 都具有一些共性的内容10 *比如: 不正常的情况信息,引发原因等... 阅读全文

posted @ 2013-05-08 14:22 vincent_hv 阅读(260) 评论(0) 推荐(0) 编辑

2013年4月25日

Ubuntu安装Libreoffice4.02中文版办公软件

摘要： Libre Office 运行需要JRE环境，所以要在Ubuntu 12.04中安装jre环境，如果已安装则跳过此步sudo apt-get -y install openjdk-6-jre一、下载在官网下载最新版本的libreoffice 官网：http://zh-cn.libreoffice.org/download/有三个包第一个：主安装文件第二个：语言包第三个：内建help按照上面的排列顺序逐个安装，安装顺序不要颠倒，免得造成不必要的麻烦，造成有安装包会冲突。1、安装主程序执行如下命令tar -xvf LibreOffice_4.0.0_Linux_x86_deb.tarcd /hom 阅读全文

posted @ 2013-04-25 18:20 vincent_hv 阅读(375) 评论(0) 推荐(0) 编辑

2013年4月19日

吸血鬼数字算法

摘要： “吸血鬼数字”就是指位数为偶数的数字(我们算得是4位的)，可以由一对数字相乘而得到，而这对数字各包含乘积的一半位数字，其中从偶数位数字中选取的数字可以任意排列。以两个0截尾的数字是不允许的。例如：1260=21*60 1827=21*87 2187=27*81今天在Thinking in JAVA 中做到的练习题。网上找到的比较好的算法： 1 public class Test10 { 2 public static void main(String[] args) { 3 String[] ar_str1, ar_str2; 4 int sum = 0... 阅读全文

posted @ 2013-04-19 09:49 vincent_hv 阅读(2135) 评论(0) 推荐(0) 编辑

2013年4月9日

JVM优化，缩短Eclipse启动时间

摘要：进入eclipse目录，修改eclipse.init-serverplugins/org.eclipse.equinox.launcher_1.3.0.v20120522-1813.jar--launcher.libraryplugins/org.eclipse.equinox.launcher.win32.win32.x86_64_1.1.200.v20120913-144807-showsplashorg.eclipse.platform--launcher.XXMaxPermSize256m--launcher.defaultActionopenFile-vmargs-Xms256m-X 阅读全文

posted @ 2013-04-09 12:28 vincent_hv 阅读(249) 评论(0) 推荐(0) 编辑

2013年4月8日

修改Ubuntu12.04 开机启动菜单，包括系统启动等待时间，系统启动顺序

摘要： 1、备份sudocp/boot/grub/grub.cfg/boot/grub/grub.cfg.bak然后，打开grub配置文档sudogedit/boot/grub/grub.cfg2、其中settimeout=10：表示默认等待时间，单位是秒;setdefault="0"：表示默认的启动项，“0”表示第一个，依次类推。3、建议使用快捷键进行查找，即“ctrl+f"，gedit将会高亮标记出对应文本，能更快、更准确找到文本对应位置，并减少错误的发生。4、时间自行修改，不多说。这里以把Windows设为默认启动系统为例简单说一下：网上一些说法是：找到window 阅读全文

posted @ 2013-04-08 09:08 vincent_hv 阅读(1052) 评论(0) 推荐(0) 编辑

2013年3月28日

ubuntu 12.04 eclipse svn报Failed to load JavaHL Library

摘要：在Ubuntu 12.04 下， eclipse 安装 svn插件一般会遇到两个问题：1）Failed to load JavaHL Library.These are the errors that were encountered:no libsvnjavahl-1 in java.library.pathno svnjavahl-1 in java.library.pathno svnjavahl in java.library.pathjava.library.path = /usr/lib/jni按照以前的装法1、sudo apt-get install libsvn-java2、e 阅读全文

posted @ 2013-03-28 17:07 vincent_hv 阅读(388) 评论(0) 推荐(0) 编辑

ubuntu增加GBK编码

摘要： windows下eclipse默认文档编码为GBK，而ubuntu下的默认文档编码为utf-8. 增加GBK 编码打开终端，输入sudo gedit/var/lib/locales/supported.d/local 在打开的界面中添加zh_CN.GBK GBK zh_CN.GB2312 GB2312 保存并关闭文档，然后在终端中输入：sudo dpkg-reconfigure --force locales 下载完成后，即可设置eclipse中的编码：Window->Preferences 选择General标签下的Workspace，将Text file encoding 改成Ot 阅读全文

posted @ 2013-03-28 15:57 vincent_hv 阅读(428) 评论(0) 推荐(0) 编辑

2013年3月21日

程序员学习能力提升三要素

摘要： IT技术的发展日新月异，新技术层出不穷，具有良好的学习能力，能及时获取新知识、随时补充和丰富自己，已成为程序员职业发展的核心竞争力。本文中，作者结合多年的学习经验总结出了提高程序员学习能力的三个要点。众所周知，现在是一个知识爆炸的时代，知识更新非常快。据测算，一个大学毕业生所学到的知识，在毕业之后2年内，有效的不过剩下5%。对于软件行业而言，这种形势更为明显，我们赖以立足的，不在于我们现在掌握了多少知识，而是我们有多强的学习能力。学习人人都会，但不同的人学习效果却千差万别。一个善于学习的人，首先应该是一个善于读书的人，懂得如何高效地学习，并且拥有良好的心态。唯有如此，才能成为一个卓有成效的学习阅读全文

posted @ 2013-03-21 13:06 vincent_hv 阅读(224) 评论(0) 推荐(0) 编辑

Talk is cheap, show the code!

公告