2011 年 9月随笔档案 - glose

Mapreduce 实现简单的倒排索引问题

摘要：问题：输入多个文件，每个文件中有很多个单词，并且都是以空格分隔。然后需要对这些输入文件建索引输出每个单词在某个文件中出现的次数。比如hello在file1中出现了10次，在file2中出现了4次，那么就输出 hello file1 10 file2 4，以此类推，最后将建好的索引输出到输出文件中。这个程序我已经实现了，需要源码的联系我~~ 阅读全文

posted @ 2011-09-30 16:26 glose 阅读(721) 评论(5) 推荐(0) 编辑

Mapreduce如何实现自己的InputFormat

摘要：在mapreduce程序运行的开始阶段，hadoop需要将待处理的输入文件进行分割，按预定义的格式对文件读取等操作，这些操作都在InputFormat中进行。主要工作有以下3个： 1. Validate the input-specification of the job. 2. Split-up the input file(s) into logical InputSplits, each of which is then assigned to an individual Mapper. 3. Provide the RecordReader implementation to be . 阅读全文

posted @ 2011-09-30 16:18 glose 阅读(1270) 评论(0) 推荐(0) 编辑

Data deduplication

摘要：题目：Datadeduplication描述你的程序要求读入输入文件，在去掉所有数据中的重复数据后输出结果。在输入文件中每一行是一个元数据。输入输入是一组文本文件，在每个输入文件中每一行是一个数据。每一个元数据都是一个字符串。输出文件输出文件的每一行都是在输入文件中出现过的一个数据，并且输出文件中的每一行都不相同。输入样例input1:2006-6-9a2006-6-10b2006-6-11c2006-6-12d2006-6-13a2006-6-14b2006-6-15c2006-6-11cinput2:2006-6-9b2006-6-10a2006-6-11b2006-6-12d2006-6 阅读全文

posted @ 2011-09-26 18:33 glose 阅读(694) 评论(0) 推荐(0) 编辑

a+b per line

摘要：a+bperline描述有时候你会遇到这样的问题：你有一个表格，给出了每个人在十二月，一月和二月的收入。表格如下：nameDecJan($)CM200314LY2000332QQM6000333ZYM5000333BP3012你需要知道每个人这三个月的收入总和，那么你就需要将表格中一行代表收入的数字相加.下面请编写程序解决这个问题。输入输入只包含一个文件，文件中有一个表格，它的结构如下:120031422000332360003334500033353012其中每行最前面的数字是行标输出输出是一个文本文件，每一行第一个数字式行标，第二个数字是输入文件中每一行除行标外数字的和。如下:151422 阅读全文

posted @ 2011-09-26 08:53 glose 阅读(382) 评论(0) 推荐(0) 编辑

hadoop面试可能遇到的问题

摘要：本文引用自神之子《hadoop面试可能遇到的问题》Q1. Name the most common InputFormats defined inHadoop? Which one is default ?Following 2 are most common InputFormats defined inHadoop- TextInputFormat- KeyValueInputFormat- SequenceFileInputFormatQ2. What is the difference between TextInputFormatand KeyValueInputFormat cla 阅读全文

posted @ 2011-09-23 09:40 glose 阅读(1948) 评论(0) 推荐(0) 编辑

SequenceFile 简单介绍

摘要：SequeceFile是Hadoop API提供的一种二进制文件支持。这种二进制文件直接将<key, value>对序列化到文件中。一般对小文件可以使用这种文件合并，即将文件名作为key，文件内容作为value序列化到大文件中。这种文件格式有以下好处：1)支持压缩，且可定制为基于Record或Block压缩（Block级压缩性能较优） 2)本地化任务支持：因为文件可以被切分，因此MapReduce任务时数据的本地化情况应该是非常好的。 3)难度低：因为是Hadoop框架提供的API，业务逻辑侧的修改比较简单。坏处是需要一个合并文件的过程，且合并后的文件将不方便查看。Sequence 阅读全文

posted @ 2011-09-16 19:31 glose 阅读(1935) 评论(0) 推荐(1) 编辑

mapreduce 编程SequenceFile类的使用

摘要：1.对于某些应用而言，需要特殊的数据结构来存储自己的数据。对于基于MapReduce的数据处理，将每个二进制数据的大对象融入自己的文件中并不能实现很高的可扩展性，针对上述情况，Hadoop开发了一组更高层次的容器SequenceFile。 2. 考虑日志文件，其中每一条日志记录是一行文本。如果想记录二进制类型，纯文本是不合适的。这种情况下，Hadoop的SequenceFile类非常合适，因为上述提供了二进制键/值对的永久存储的数据结构。当作为日志文件的存储格式时，可以自己选择键，比如由LongWritable类型表示的时间戳，以及值可以是Writable类型，用于表示日志记录的数量。Seq. 阅读全文

posted @ 2011-09-16 19:20 glose 阅读(2248) 评论(1) 推荐(0) 编辑

mapreduce 利用InverseMapper.class对key,value进行交换实现词频排序

摘要：本程序的功能是对输入的数据进行词频统计然后再根据词频大小对出现的单词进行排列1.实现的map类这个类实现 Mapper 接口中的 map 方法，输入参数中的 value 是文本文件中的一行，利用StringTokenizer 将这个字符串拆成单词，然后将输出结果org.apache.hadoop.mapred.OutputCollect... 阅读全文

posted @ 2011-09-15 20:20 glose 阅读(1777) 评论(0) 推荐(0) 编辑

hadoop hive学习之旅

摘要：hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供完整的sql查询功能，可以将sql语句转换为 MapReduce任务进行运行。其优点是学习成本低，可以通过类SQL语句快速实现简单的MapReduce统计，不必开发专门的MapReduce应用，十分适合数据仓库。hive 的安装与启动1.首先要确认已经安装好hadoop并且能够正常启动。2.然后下载hive，我用的是hive-0.3.99.1+0（可以去hadoop官网上去下在）3.hive的安装基本上不需要配置，直接用tar解压缩，只需要配置简单环境变量 export HIVE_HOME=/ho. 阅读全文

posted @ 2011-09-09 18:29 glose 阅读(841) 评论(0) 推荐(0) 编辑

Ubuntu 10.04 Eclipse c/c++ 平台搭建

摘要：1 安装eclipse：第一种是通过Ubuntu自带的程序安装功能安装Eclipse，应用程序 ->Ubtuntu软件中心，搜Eclipse安装即可。第二种方法是用命令：应用程序->附件->终端然后输入(中间可能需要你输入密码)： sudo apt-get install eclipse sudo apt-get install eclipse-pde sudo apt-get install eclipse-jdt2 安装中文语言包菜单栏：Help------>Install New Software------>在Work with的框框下输入以下地址阅读全文

posted @ 2011-09-03 12:34 glose 阅读(470) 评论(0) 推荐(0) 编辑

glose

09 2011 档案

公告

搜索

常用链接

我的标签

随笔分类

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论