12 2011 档案

摘要:我装的是Cygwin+hadoop跑在Windows上。hadoop4win安装起来非常的方便,但是还没怎么使用,今天想试试SequenceFile,然后在写文件的时候出现错误:Exception in thread "main" java.io.IOException: Cannot run program "XX": CreateProcess error运行的程序是在Windows利用eclipse链接Hadoop读写HDFS上的文件。解决办法: 在windows下根据自己的情况设置环境变量: HADOOP4WIN_HOME=D:\hadoop4w 阅读全文
posted @ 2011-12-30 10:02 glose 阅读(3555) 评论(0) 推荐(0) 编辑
摘要:利用HTMLParser来抽取指定标签具有某属性的的文本内容,比如说抽取div标签,具有class属性问hd,抽取其中的文本内容(一)Filter类顾名思义,Filter就是对于结果进行过滤,取得需要的内容。HTMLParser在org.htmlparser.filters包之内一共定义了16个不同的Filter,也可以分为几类。判断类Filter:TagNameFilterHasAttributeFilterHasChildFilterHasParentFilterHasSiblingFilterIsEqualFilter逻辑运算Filter:AndFilterNotFilterOrFilt 阅读全文
posted @ 2011-12-14 10:42 glose 阅读(2389) 评论(1) 推荐(0) 编辑
摘要:最近一直在学习搜索引擎的相关知识,在对于原始的HTML网页的处理是其中非常重要的一个环节,也就是所说的“去噪”,比如去掉相关的标签和不需要的JS代码等等,HTMLParser(http://htmlparser.sourceforge.net/)是一个对现有的HTML进行分析的快速实时的解析工具。它是一个开源的项目,通过它可以准确高效地对HTML文本中的格式、数据进行处理。利用它可以很容易地对网页的内容进行分析、过滤和抓取。它的主要功能分为以下几个部分: 文本信息抽取:提取网页中的文字。 链接提取:提取网页中的链接信息和锚文本。 资源提取:网页中图片、声音的处理。 链接检查:用于... 阅读全文
posted @ 2011-12-13 21:51 glose 阅读(2119) 评论(1) 推荐(0) 编辑
摘要:搜索引擎基本框架图上面是老师上课时给出的搜索引擎基本框架图,主要分为以下三个基本模块: Web信息采集模块 目前有很多的Open Source爬虫工具,如Weblech(http://weblech.sourceforge.net/)博士师兄推荐的工具,使用起来比较简单,容易上手,Nutch(http://lucene.apache.org/nutch/)是一个基于Lucene的,类似于Google的解决方案,Larbin,Heritrix,WebSpinx(感觉这个工具也不错,有可视化界面,并且定制功能也特别的强大,准备继续研究)等等。利用这些现有的开源工具(当然也可以利用一些开发包自己.. 阅读全文
posted @ 2011-12-09 10:35 glose 阅读(683) 评论(0) 推荐(0) 编辑

< 2025年3月 >
23 24 25 26 27 28 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31 1 2 3 4 5
点击右上角即可分享
微信分享提示