glose

2011年9月26日

摘要： a+bperline描述有时候你会遇到这样的问题：你有一个表格，给出了每个人在十二月，一月和二月的收入。表格如下：nameDecJan($)CM200314LY2000332QQM6000333ZYM5000333BP3012你需要知道每个人这三个月的收入总和，那么你就需要将表格中一行代表收入的数字相加.下面请编写程序解决这个问题。输入输入只包含一个文件，文件中有一个表格，它的结构如下:120031422000332360003334500033353012其中每行最前面的数字是行标输出输出是一个文本文件，每一行第一个数字式行标，第二个数字是输入文件中每一行除行标外数字的和。如下:151422 阅读全文

posted @ 2011-09-26 08:53 glose 阅读(381) 评论(0) 推荐(0) 编辑

2011年9月23日

hadoop面试可能遇到的问题

摘要：本文引用自神之子《hadoop面试可能遇到的问题》Q1. Name the most common InputFormats defined inHadoop? Which one is default ?Following 2 are most common InputFormats defined inHadoop- TextInputFormat- KeyValueInputFormat- SequenceFileInputFormatQ2. What is the difference between TextInputFormatand KeyValueInputFormat cla 阅读全文

posted @ 2011-09-23 09:40 glose 阅读(1943) 评论(0) 推荐(0) 编辑

2011年9月16日

SequenceFile 简单介绍

摘要： SequeceFile是Hadoop API提供的一种二进制文件支持。这种二进制文件直接将<key, value>对序列化到文件中。一般对小文件可以使用这种文件合并，即将文件名作为key，文件内容作为value序列化到大文件中。这种文件格式有以下好处：1)支持压缩，且可定制为基于Record或Block压缩（Block级压缩性能较优） 2)本地化任务支持：因为文件可以被切分，因此MapReduce任务时数据的本地化情况应该是非常好的。 3)难度低：因为是Hadoop框架提供的API，业务逻辑侧的修改比较简单。坏处是需要一个合并文件的过程，且合并后的文件将不方便查看。Sequence 阅读全文

posted @ 2011-09-16 19:31 glose 阅读(1933) 评论(0) 推荐(1) 编辑

mapreduce 编程SequenceFile类的使用

摘要： 1.对于某些应用而言，需要特殊的数据结构来存储自己的数据。对于基于MapReduce的数据处理，将每个二进制数据的大对象融入自己的文件中并不能实现很高的可扩展性，针对上述情况，Hadoop开发了一组更高层次的容器SequenceFile。 2. 考虑日志文件，其中每一条日志记录是一行文本。如果想记录二进制类型，纯文本是不合适的。这种情况下，Hadoop的SequenceFile类非常合适，因为上述提供了二进制键/值对的永久存储的数据结构。当作为日志文件的存储格式时，可以自己选择键，比如由LongWritable类型表示的时间戳，以及值可以是Writable类型，用于表示日志记录的数量。Seq. 阅读全文

posted @ 2011-09-16 19:20 glose 阅读(2245) 评论(1) 推荐(0) 编辑

2011年9月15日

mapreduce 利用InverseMapper.class对key,value进行交换实现词频排序

摘要：本程序的功能是对输入的数据进行词频统计然后再根据词频大小对出现的单词进行排列1.实现的map类这个类实现 Mapper 接口中的 map 方法，输入参数中的 value 是文本文件中的一行，利用StringTokenizer 将这个字符串拆成单词，然后将输出结果org.apache.hadoop.mapred.OutputCollect... 阅读全文

posted @ 2011-09-15 20:20 glose 阅读(1777) 评论(0) 推荐(0) 编辑

2011年9月9日

hadoop hive学习之旅

摘要： hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供完整的sql查询功能，可以将sql语句转换为 MapReduce任务进行运行。其优点是学习成本低，可以通过类SQL语句快速实现简单的MapReduce统计，不必开发专门的MapReduce应用，十分适合数据仓库。hive 的安装与启动1.首先要确认已经安装好hadoop并且能够正常启动。2.然后下载hive，我用的是hive-0.3.99.1+0（可以去hadoop官网上去下在）3.hive的安装基本上不需要配置，直接用tar解压缩，只需要配置简单环境变量 export HIVE_HOME=/ho. 阅读全文

posted @ 2011-09-09 18:29 glose 阅读(838) 评论(0) 推荐(0) 编辑

2011年9月3日

Ubuntu 10.04 Eclipse c/c++ 平台搭建

摘要： 1 安装eclipse：第一种是通过Ubuntu自带的程序安装功能安装Eclipse，应用程序 ->Ubtuntu软件中心，搜Eclipse安装即可。第二种方法是用命令：应用程序->附件->终端然后输入(中间可能需要你输入密码)： sudo apt-get install eclipse sudo apt-get install eclipse-pde sudo apt-get install eclipse-jdt2 安装中文语言包菜单栏：Help------>Install New Software------>在Work with的框框下输入以下地址阅读全文

posted @ 2011-09-03 12:34 glose 阅读(470) 评论(0) 推荐(0) 编辑

2011年8月26日

Java实现利用TCP协议实现网络之间的通信

摘要： TCP通信编程-Java实现客户端编程步骤：建立网络连接交换数据关闭网络连接服务器端编程步骤：监听端口获得连接交换数据关闭连接主要理解一下以下几个类：InetAddress类该类的功能是代表一个IP地址，并且将IP地址和域名相关的操作方法包含在该类的内部。ServerSocket类用来给服务器端建立套接字，它的主要功能是等待来自网络上的“请求”，它可通过指定的端口来等大力连接的套接字。Scoket类客户机创建了Socket对象以后，会向指定的IP地址以及端口尝试连接。服务器会创建新的套接字与客户端套接字建立连接。下面是C/S模式下的客户端与服务器端之间的通信源代码imp... 阅读全文

posted @ 2011-08-26 10:58 glose 阅读(2823) 评论(1) 推荐(0) 编辑

2011年8月21日

eclipse 通过ODBC配置数据源连接access数据库

摘要：之前本人一直都在用mysql数据库，今天尝试了一下微软自带的Access数据库，相对于Oracle，Sqlserver，Mysql等数据库来说，Access数据库是一个相对来说非常小但是简单的数据库。对于使用ODBC作为连接方式的数据库，在一样程序于数据库连接之前，必须使用Windows的ODBC数据源管理器将数据库配置成ODBC数据源。配置过程如下： (1) 在“控制面板”的“管理工具”中，双击“数据源”，在“数据源管理器”对话框中，单击“添加”按钮。 (2)在“创建新数据源”对话框上，选择数据源驱动程序为“Microsoft Access Driver(*.mdb)",单击” 阅读全文

posted @ 2011-08-21 11:48 glose 阅读(6459) 评论(0) 推荐(0) 编辑

2011年8月19日

mapreduce对一维的数组进行排序

摘要： import java.io.IOException;import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.Text;import org.apache.hadoop.mapred.MapReduceBase;import org.apache.hadoop.mapred.Mapper;import org.apache.hadoop.mapred.OutputCollector;import org.apache.hadoop.m 阅读全文

posted @ 2011-08-19 16:14 glose 阅读(390) 评论(0) 推荐(0) 编辑

公告