conbein

2014年10月20日

摘要：由于Hadoop版本混乱多变，Hadoop的版本选择问题一直令很多初级用户苦恼。本文总结了Apache Hadoop和Cloudera Hadoop的版本衍化过程，并给出了选择Hadoop版本的一些建议。1. Apache Hadoop1.1 Apache版本衍化截至目前（2012年12月23日），... 阅读全文

posted @ 2014-10-20 22:25 conbein 阅读(308) 评论(0) 推荐(0)

2014年10月12日

使用wget下载网页API的常用命令

摘要：先介绍几个参数：-c 断点续传（备注：使用断点续传要求服务器支持断点续传），-r 递归下载（目录下的所有文件,包括子目录），-np 递归下载不搜索上层目录，-k 把绝对链接转为相对链接，这样下载之后的网页方便浏览。-L 递归时不进入其他主机，-p 下载网页所需要的所有文件。比如：#wget -c -... 阅读全文

posted @ 2014-10-12 22:23 conbein 阅读(504) 评论(0) 推荐(0)

2014年7月10日

在CentOS6中安装 avidemux

摘要：简单记录下在CentOS6.2 64bit 下安装avidemux的过程。首先去了http://avidemux.sourceforge.net/ 下下载了2.6.8的源码包，然后安装官方给的安装方法安装：http://avidemux.org/admWiki/doku.php?id=build:... 阅读全文

posted @ 2014-07-10 14:01 conbein 阅读(462) 评论(2) 推荐(1)

2014年6月18日

Hadoop 2.2.0 在centos6.2 64位下的安装--分布式模式

摘要：首先，要有Linux 64位的安装包，这个要自己编译，编译方法参见我的这篇帖子：http://www.cnblogs.com/conbein/p/3793166.html ，如果实在不想编译，留言发给你具体安装过程可参考：http://blog.csdn.net/gobitan/article/de... 阅读全文

posted @ 2014-06-18 15:30 conbein 阅读(198) 评论(0) 推荐(0)

2014年6月17日

Hadoop 2.2.0 在CentOS6.2 64位下的编译

摘要：最近在学习搭建Hadoop，直接从Apache官方网站直接下载最新版本Hadoop2.2，结果运行时发现提示 “libhadoop.so.1.0.0 which might have disabled stack guard” 的警告。Google了一下发现是因为 hadoop 2.2.0提供的是l... 阅读全文

posted @ 2014-06-17 17:19 conbein 阅读(412) 评论(0) 推荐(0)

2014年3月31日

Sqoop 工具速查表（中文版）--转

摘要： Sqoop用户手册（英文版）：http://archive.cloudera.com/cdh/3/sqoop/SqoopUserGuide.html1. 概述本文档主要对SQOOP的使用进行了说明，参考内容主要来自于Cloudera SQOOP的官方文档。为了用中文更清楚明白地描述各参数的使用含义，本文档几乎所有参数使用说明都经过了我的实际验证而得到。2. sqoop-import将数据库表的数据导入到hive中，如果在hive中没有对应的表，则自动生成与数据库表名相同的表。sqoop import –connect jdbc:mysql://localhost:3306/hive –user 阅读全文

posted @ 2014-03-31 16:32 conbein 阅读(1348) 评论(0) 推荐(0)

2014年3月20日

动态规划算法

摘要：参考文章地址：http://www.cnblogs.com/steven_oyj/archive/2010/05/22/1741374.html 中间加入了自己的理解。一、基本概念动态规划过程是：每次决策依赖于当前状态，又随即引起状态的转移，一个决策就是在变化的状态中产生出来的。动态规划常常适用于有重叠子问题和最优子结构性质的问题，其所耗时间往往远少于朴素解法。二、基本思想与策... 阅读全文

posted @ 2014-03-20 17:09 conbein 阅读(261) 评论(0) 推荐(0)

2013年9月2日

MapReduce学习笔记(4)

摘要：现在正式开始编写MapReduce程序。1、专利数据集这里我们使用专利数据集作为hadoop的输入数据。数据集可以从美国国家经济研究局获得:http://www.nber.org/patents/。两个数据集下载地址分别为：http://www.nber.org/patents/acite75_99.zip http://www.nber.org/patents/apat63_99.zip。2、MapReduce程序的基础模板大多数MapReduce程序的编写都可以依赖于一个模板或其变种，当写程序是，我们将其修改为我们所希望的样子，而不是重新写一个。我们通过一个简单的例子来给出一个... 阅读全文

posted @ 2013-09-02 20:28 conbein 阅读(333) 评论(0) 推荐(0)

MapReduce学习笔记(3)

摘要：三、读和写 mapreduce的输入数据一般来自较大的文件，通常为GB或TB级。MapReduce的基本处理原则是将输入数据分割成块，这些块可以在计算机上并行处理。块的大小需要权衡，如果太大，则并行粒度就会较大，如果太小，则启动和停止处理每个块所需时间就会占去很大部分执行时间。 1、InputFormat Hadoop分割与读取输入文件的方式被定义在InputFormat借口的一个实现中，TextInputFormat是InputFormat的默认实现，当你想要一次性读取一行数据，而且数据没有确定的键值时，这种数据结构会很有用。常用InputFormat类如下要设置相应的In... 阅读全文

posted @ 2013-09-02 18:21 conbein 阅读(198) 评论(0) 推荐(0)

2013年8月28日

MapReduce学习笔记(2)

摘要： 1、Mapper 一个类要作为mapper必须实现Mapper接口，并且继承MapReduceBase类。 Mapper负责数据处理阶段，形式为Mapper，Mapper只有一个方法map，用于处理一个单独的key/value对。Hadoop预定义了一些非常有用的Mapper 2、Reducer 一个类要作为Reducer必须实现Reducer接口，并且继承MapReduceBase类。当reducer接受来自各个mapper的输出时，将按照key值对输入数据进行排序，并按照排序结果输出给不同的reducer。同样，Hadoop预定义了一些非常有用的... 阅读全文

posted @ 2013-08-28 20:35 conbein 阅读(312) 评论(0) 推荐(0)

公告