随笔分类 -  Hadoop

摘要:http://www.cnblogs.com/xia520pi/archive/2012/05/16/2503949.html 阅读全文
posted @ 2013-04-08 18:17 glose 阅读(137) 评论(0) 推荐(0) 编辑
摘要:最近在运行hadoop程序,遇到两个问题:1、OutOfMemoryError in HadoopError: unable to create new native thread Error initializing attempt_201111090003_0013_r_000000_0: java.lang.OutOfMemoryError: unable to create new native thread at java.lang.Thread.start0(Native Method) at java.lang.Thread.start(Thread.java:614) at j 阅读全文
posted @ 2012-08-09 11:06 glose 阅读(2233) 评论(0) 推荐(0) 编辑
摘要:Save This PageHome » hadoop-0.14.4 » org.apache » hadoop » io » [javadoc | source] 看看这个源码,应该就很明白了1 /** 2 * Licensed to the Apache Software Foundation (ASF) under one 3 * or more contributor license agreements. See the NOTICE file 4 * distributed with this work for additional 阅读全文
posted @ 2012-04-29 09:54 glose 阅读(977) 评论(0) 推荐(0) 编辑
摘要:错误提示如下:Exception in thread "main" java.lang.NoClassDefFoundError: SmailFileToBigFile/Texc_Mapper at SmailFileToBigFile.TexcMR_Driver.TexcMR_DriverMain(TexcMR_Driver.java:29) at Main.main(Main.java:43) at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method) at sun.reflect.NativeMetho 阅读全文
posted @ 2012-04-29 09:30 glose 阅读(1150) 评论(1) 推荐(0) 编辑
摘要:mapreduce 打包成jar文件 在控制台运行 出现下面的错误并且指定的输入路径下的文件,运行程序之后,会自动没了该程序在eclipse下可以正常运行控制台命令: ./hadoop jar ~/kmean.jar com.xiaoming.mapreduce.Kmeanhdfs://ubuntu:8020/user/hadoop/kmean/out12/02/23 10:24:19 WARN mapred.JobClient: Use GenericOptionsParser for parsing the arguments. Applications should implement 阅读全文
posted @ 2012-02-25 09:45 glose 阅读(3018) 评论(0) 推荐(0) 编辑
摘要:我装的是Cygwin+hadoop跑在Windows上。hadoop4win安装起来非常的方便,但是还没怎么使用,今天想试试SequenceFile,然后在写文件的时候出现错误:Exception in thread "main" java.io.IOException: Cannot run program "XX": CreateProcess error运行的程序是在Windows利用eclipse链接Hadoop读写HDFS上的文件。解决办法: 在windows下根据自己的情况设置环境变量: HADOOP4WIN_HOME=D:\hadoop4w 阅读全文
posted @ 2011-12-30 10:02 glose 阅读(3555) 评论(0) 推荐(0) 编辑
摘要:今天看Data-Intensive Text Processing with MapReduce 这本书的第三章的时候,里面有写到在map端优化wordcount。 对数据密集型数据进行分布式处理的时候,影响数据处理速度的非常重要的一个方面就是map的输出中间结果,在传送到reduce的过程中,很多的中间数据需要进行交换以及包括一些相应的处理,然后再交给相应的reduce。其中中间数据需要在网络中传输,另外中间数据在发送到网络上之前还要写到本地磁盘上,因为网络带宽和磁盘I/O是非常耗时的相比与其他的操作,所以减少中间数据的传输将会增加算法的执行效率,通过使用combiner函数或者其他的... 阅读全文
posted @ 2011-10-24 19:48 glose 阅读(682) 评论(0) 推荐(0) 编辑
摘要:hadoop@ubuntu:~/hadoop-0.20.2/bin$ ./hadoop jar ~/finger.jar Finger kaoqin output出现的错误:11/10/14 13:52:07 WARN mapred.JobClient: Use GenericOptionsParser for parsing the arguments. Applications should implement Tool for the same.11/10/14 13:52:07 WARN mapred.JobClient: No job jar file set. User class 阅读全文
posted @ 2011-10-13 14:16 glose 阅读(2826) 评论(0) 推荐(0) 编辑
摘要:问题:输入多个文件,每个文件中有很多个单词,并且都是以空格分隔。然后需要对这些输入文件建索引 输出每个单词在某个文件中出现的次数。比如hello在file1中出现了10次,在file2中出现了4次,那么就输出 hello file1 10 file2 4,以此类推,最后将建好的索引输出到输出文件中。这个程序我已经实现了,需要源码的联系我~~ 阅读全文
posted @ 2011-09-30 16:26 glose 阅读(721) 评论(5) 推荐(0) 编辑
摘要:在mapreduce程序运行的开始阶段,hadoop需要将待处理的输入文件进行分割,按预定义的格式对文件读取等操作,这些操作都在InputFormat中进行。主要工作有以下3个: 1. Validate the input-specification of the job. 2. Split-up the input file(s) into logical InputSplits, each of which is then assigned to an individual Mapper. 3. Provide the RecordReader implementation to be . 阅读全文
posted @ 2011-09-30 16:18 glose 阅读(1270) 评论(0) 推荐(0) 编辑
摘要:题目:Datadeduplication描述你的程序要求读入输入文件,在去掉所有数据中的重复数据后输出结果。在输入文件中每一行是一个元数据。输入输入是一组文本文件,在每个输入文件中每一行是一个数据。每一个元数据都是一个字符串。输出文件输出文件的每一行都是在输入文件中出现过的一个数据,并且输出文件中的每一行都不相同。输入样例input1:2006-6-9a2006-6-10b2006-6-11c2006-6-12d2006-6-13a2006-6-14b2006-6-15c2006-6-11cinput2:2006-6-9b2006-6-10a2006-6-11b2006-6-12d2006-6 阅读全文
posted @ 2011-09-26 18:33 glose 阅读(694) 评论(0) 推荐(0) 编辑
摘要:a+bperline描述有时候你会遇到这样的问题:你有一个表格,给出了每个人在十二月,一月和二月的收入。表格如下:nameDecJan($)CM200314LY2000332QQM6000333ZYM5000333BP3012你需要知道每个人这三个月的收入总和,那么你就需要将表格中一行代表收入的数字相加.下面请编写程序解决这个问题。输入输入只包含一个文件,文件中有一个表格,它的结构如下:120031422000332360003334500033353012其中每行最前面的数字是行标输出输出是一个文本文件,每一行第一个数字式行标,第二个数字是输入文件中每一行除行标外数字的和。如下:151422 阅读全文
posted @ 2011-09-26 08:53 glose 阅读(382) 评论(0) 推荐(0) 编辑
摘要:SequeceFile是Hadoop API提供的一种二进制文件支持。这种二进制文件直接将<key, value>对序列化到文件中。一般对小文件可以使用这种文件合并,即将文件名作为key,文件内容作为value序列化到大文件中。这种文件格式有以下好处:1)支持压缩,且可定制为基于Record或Block压缩(Block级压缩性能较优) 2)本地化任务支持:因为文件可以被切分,因此MapReduce任务时数据的本地化情况应该是非常好的。 3)难度低:因为是Hadoop框架提供的API,业务逻辑侧的修改比较简单。坏处是需要一个合并文件的过程,且合并后的文件将不方便查看。Sequence 阅读全文
posted @ 2011-09-16 19:31 glose 阅读(1935) 评论(0) 推荐(1) 编辑
摘要:1.对于某些应用而言,需要特殊的数据结构来存储自己的数据。对于基于MapReduce的数据处理,将每个二进制数据的大对象融入自己的文件中并不能实现很高的可扩展性,针对上述情况,Hadoop开发了一组更高层次的容器SequenceFile。 2. 考虑日志文件,其中每一条日志记录是一行文本。如果想记录二进制类型,纯文本是不合适的。这种情况下,Hadoop的SequenceFile类非常合适,因为上述提供了二进制键/值对的永久存储的数据结构。当作为日志文件的存储格式时,可以自己选择键,比如由LongWritable类型表示的时间戳,以及值可以是Writable类型,用于表示日志记录的数量。Seq. 阅读全文
posted @ 2011-09-16 19:20 glose 阅读(2248) 评论(1) 推荐(0) 编辑
摘要:本程序的功能是对输入的数据进行词频统计然后再根据词频大小对出现的单词进行排列1.实现的map类 这个类实现 Mapper 接口中的 map 方法,输入参数中的 value 是文本文件中的一行,利用StringTokenizer 将这个字符串拆成单词,然后将输出结果org.apache.hadoop.mapred.OutputCollect... 阅读全文
posted @ 2011-09-15 20:20 glose 阅读(1777) 评论(0) 推荐(0) 编辑
摘要:hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的sql查询功能,可以将sql语句转换为 MapReduce任务进行运行。 其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库。hive 的安装与启动1.首先要确认已经安装好hadoop并且能够正常启动。2.然后下载hive,我用的是hive-0.3.99.1+0(可以去hadoop官网上去下在)3.hive的安装基本上不需要配置,直接用tar解压缩,只需要配置简单环境变量 export HIVE_HOME=/ho. 阅读全文
posted @ 2011-09-09 18:29 glose 阅读(841) 评论(0) 推荐(0) 编辑
摘要:import java.io.IOException;import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.Text;import org.apache.hadoop.mapred.MapReduceBase;import org.apache.hadoop.mapred.Mapper;import org.apache.hadoop.mapred.OutputCollector;import org.apache.hadoop.m 阅读全文
posted @ 2011-08-19 16:14 glose 阅读(391) 评论(0) 推荐(0) 编辑
摘要:这里需要进行一点额外的工作才能使得URL识别hdfs的uri。我们要使用java.net.URL的 setURLStreamHandlerFactory()方法设置URLStreamHandlerFactory,这里需要传递一个 FsUrlStreamHandlerFactory。这个操作对一个jvm只能使用一次,我们可以在静态块中调用。publicclass FIleSystemCat { /** * @param args * @throws IOException */static { //这句是为了让程序识别hdfs协议而进... 阅读全文
posted @ 2011-08-19 13:57 glose 阅读(2600) 评论(0) 推荐(0) 编辑
摘要:转载自 转载自董的博客http://dongxicheng.org/search-engine/log-systems/1.背景介绍许多公司的平台每天会产生大量的日志(一般为流式数据,如,搜索引擎的pv,查询等),处理这些日志需要特定的日志系统,一般而言,这些系统需要具有以下特征:(1)构建应用系统和分析系统的桥梁,并将它们之间的关联解耦;(2)支持近实时的在线分析系统和类似于Hadoop之类的离线分析系统;(3)具有高可扩展性。即:当数据量增加时,可以通过增加节点进行水平扩展。本文从设计架构,负载均衡,可扩展性和容错性等方面对比了当今开源的日志系统,包括facebook的scribe,apa 阅读全文
posted @ 2011-07-05 16:07 glose 阅读(1731) 评论(0) 推荐(0) 编辑
摘要:eclipse中连接不上hdfs,显示refuse connection。解决:a.取消hdfs的安全模式 hadoop dfsadmin -safemode leave b. 在eclipse的hdfs 对话框“edit hadoop location” 的host 里不要填localhost,改为你namenode的机器名 不行的话再为你的IP地址 应 该就可以了. 阅读全文
posted @ 2011-04-24 20:39 glose 阅读(1729) 评论(0) 推荐(0) 编辑

< 2025年3月 >
23 24 25 26 27 28 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31 1 2 3 4 5
点击右上角即可分享
微信分享提示