摘要: Save This PageHome » hadoop-0.14.4 » org.apache » hadoop » io » [javadoc | source] 看看这个源码,应该就很明白了1 /** 2 * Licensed to the Apache Software Foundation (ASF) under one 3 * or more contributor license agreements. See the NOTICE file 4 * distributed with this work for additional 阅读全文
posted @ 2012-04-29 09:54 glose 阅读(977) 评论(0) 推荐(0) 编辑
摘要: 错误提示如下:Exception in thread "main" java.lang.NoClassDefFoundError: SmailFileToBigFile/Texc_Mapper at SmailFileToBigFile.TexcMR_Driver.TexcMR_DriverMain(TexcMR_Driver.java:29) at Main.main(Main.java:43) at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method) at sun.reflect.NativeMetho 阅读全文
posted @ 2012-04-29 09:30 glose 阅读(1148) 评论(1) 推荐(0) 编辑
摘要: 我在编写mapreduce程序的时候,测试数据是两个矩阵,每一个矩阵分别存放在一个文件中,文件的每一行是一个三元组(i,j,mij)。后来一不小心在文件的最后一行多敲了一个回车,在程序中读取文件数据的时候出现数据格式异常的问题,并且影响了程序的正常运行。 String line=value.toString();再对line进行切割,之后再对切割后的每一个解析成整数,所以对最后一行回车换行符,解析出来三个null,然后再传给Integer.parser()的时候肯定出现异常。 这是个小问题,希望以后自己不要再犯了!!! 阅读全文
posted @ 2012-02-25 09:51 glose 阅读(200) 评论(0) 推荐(0) 编辑
摘要: mapreduce 打包成jar文件 在控制台运行 出现下面的错误并且指定的输入路径下的文件,运行程序之后,会自动没了该程序在eclipse下可以正常运行控制台命令: ./hadoop jar ~/kmean.jar com.xiaoming.mapreduce.Kmeanhdfs://ubuntu:8020/user/hadoop/kmean/out12/02/23 10:24:19 WARN mapred.JobClient: Use GenericOptionsParser for parsing the arguments. Applications should implement 阅读全文
posted @ 2012-02-25 09:45 glose 阅读(3016) 评论(0) 推荐(0) 编辑
摘要: 我装的是Cygwin+hadoop跑在Windows上。hadoop4win安装起来非常的方便,但是还没怎么使用,今天想试试SequenceFile,然后在写文件的时候出现错误:Exception in thread "main" java.io.IOException: Cannot run program "XX": CreateProcess error运行的程序是在Windows利用eclipse链接Hadoop读写HDFS上的文件。解决办法: 在windows下根据自己的情况设置环境变量: HADOOP4WIN_HOME=D:\hadoop4w 阅读全文
posted @ 2011-12-30 10:02 glose 阅读(3550) 评论(0) 推荐(0) 编辑
摘要: 利用HTMLParser来抽取指定标签具有某属性的的文本内容,比如说抽取div标签,具有class属性问hd,抽取其中的文本内容(一)Filter类顾名思义,Filter就是对于结果进行过滤,取得需要的内容。HTMLParser在org.htmlparser.filters包之内一共定义了16个不同的Filter,也可以分为几类。判断类Filter:TagNameFilterHasAttributeFilterHasChildFilterHasParentFilterHasSiblingFilterIsEqualFilter逻辑运算Filter:AndFilterNotFilterOrFilt 阅读全文
posted @ 2011-12-14 10:42 glose 阅读(2388) 评论(1) 推荐(0) 编辑
摘要: 最近一直在学习搜索引擎的相关知识,在对于原始的HTML网页的处理是其中非常重要的一个环节,也就是所说的“去噪”,比如去掉相关的标签和不需要的JS代码等等,HTMLParser(http://htmlparser.sourceforge.net/)是一个对现有的HTML进行分析的快速实时的解析工具。它是一个开源的项目,通过它可以准确高效地对HTML文本中的格式、数据进行处理。利用它可以很容易地对网页的内容进行分析、过滤和抓取。它的主要功能分为以下几个部分: 文本信息抽取:提取网页中的文字。 链接提取:提取网页中的链接信息和锚文本。 资源提取:网页中图片、声音的处理。 链接检查:用于... 阅读全文
posted @ 2011-12-13 21:51 glose 阅读(2118) 评论(1) 推荐(0) 编辑
摘要: 搜索引擎基本框架图上面是老师上课时给出的搜索引擎基本框架图,主要分为以下三个基本模块: Web信息采集模块 目前有很多的Open Source爬虫工具,如Weblech(http://weblech.sourceforge.net/)博士师兄推荐的工具,使用起来比较简单,容易上手,Nutch(http://lucene.apache.org/nutch/)是一个基于Lucene的,类似于Google的解决方案,Larbin,Heritrix,WebSpinx(感觉这个工具也不错,有可视化界面,并且定制功能也特别的强大,准备继续研究)等等。利用这些现有的开源工具(当然也可以利用一些开发包自己.. 阅读全文
posted @ 2011-12-09 10:35 glose 阅读(680) 评论(0) 推荐(0) 编辑
摘要: 最小生成树是数据结构中图的一种重要应用,它的要求是从一个带权无向完全图中选择n-1条边并使这个图仍然连通(也即得到了一棵生成树),同时还要考虑使树的权最小。 为了得到最小生成树,人们设计了很多算法,最著名的有prim算法和kruskal算法。时间复杂度分别为O(n2)和O(eloge) 假设V是途中顶点的集合,E是边的集合,T是最小生成树的边的集合。U为在最小生成树上点的集合,那么V-U为不在最小生成树上的点的集合。 Prim算法的基本思想: 1.首先选取一个点作为起始点,比如说1顶点,加入到U集合中 2.在所有u∈U,v∈V-U的边(u,v)∈E中,找一条权最小的边(u,v),... 阅读全文
posted @ 2011-11-04 20:44 glose 阅读(1047) 评论(0) 推荐(1) 编辑
摘要: 归并排序是建立在归并操作上的一种有效的排序算法。该算法是采用分治法(Divide and Conquer)的一个非常典型的应用。 归并算法的基本思想:申请空间,使其大小为两个已经排序序列之和,该空间用来存放合并后的序列设定两个指针,最初位置分别为两个已经排序序列的起始位置比较两个指针所指向的元素,选择相对小的元素放入到合并空间,并移动指针到下一位置重复步骤3直到某一指针达到序列尾将另一序列剩下的所有元素直接复制到合并序列尾 下面我们来分析一下归并排序的时间复杂度,一趟归并需要将A[1]~A[n]中相邻的长度为h的有序序列进行两两归并。并将结果放到B[1]~B[n]中,这需要将待排序... 阅读全文
posted @ 2011-11-04 20:10 glose 阅读(2124) 评论(0) 推荐(0) 编辑