随笔分类 - 搜索引擎与文本挖掘

Detecting Near-Duplicates for Web Crawling

摘要：Detecting Near-Duplicates for Web Crawling（转载：http://blog.csdn.net/eaglex/article/details/6297684）问题背景：在互联网中有很多的网页的内容(content)是一样的，但是他们的网页元素却不是完全相同的，因为每个域名下的网页总会有一些自己的东西，比如广告(advertisement)、导航栏、网站版权之类的东西，但是对于搜索引擎来讲，只有内容部分才是有意义的，而后面的那些虽然不同，但是对搜索结果没有任何影响，所以在判定内容是否重复的时候，应该忽视后面的部分，当新爬取的content和数据库中的某个网页阅读全文

posted @ 2012-05-27 09:54 glose 阅读(675) 评论(0) 推荐(0) 编辑

网页去重算法（转载）

摘要：这里我想讨论下5个解决网页去重的算法，转载自（http://blog.csdn.net/beta2/article/details/5014530）1. I-Match2. Shingliing3. SimHashing（ locality sensitive hash）4. Random Projection5. SpotSig6. combinedI-Match算法 I-Match算法有一个基本的假设说：不经常出现的词和经常出现的词不会影响文档的语义，所以这些词是可以去掉的。算法的基本思想是：将文档中有语义的单词用hash的办法表示成一个数字，数字的相似性既能表达文档的相似性 ... 阅读全文

posted @ 2012-05-15 13:37 glose 阅读(821) 评论(0) 推荐(0) 编辑

HTMLParser学习笔记（二）

摘要：利用HTMLParser来抽取指定标签具有某属性的的文本内容，比如说抽取div标签，具有class属性问hd，抽取其中的文本内容（一）Filter类顾名思义，Filter就是对于结果进行过滤，取得需要的内容。HTMLParser在org.htmlparser.filters包之内一共定义了16个不同的Filter，也可以分为几类。判断类Filter：TagNameFilterHasAttributeFilterHasChildFilterHasParentFilterHasSiblingFilterIsEqualFilter逻辑运算Filter：AndFilterNotFilterOrFilt 阅读全文

posted @ 2011-12-14 10:42 glose 阅读(2389) 评论(1) 推荐(0) 编辑

HTMLParser学习笔记（一）

摘要：最近一直在学习搜索引擎的相关知识，在对于原始的HTML网页的处理是其中非常重要的一个环节，也就是所说的“去噪”，比如去掉相关的标签和不需要的JS代码等等，HTMLParser（http://htmlparser.sourceforge.net/）是一个对现有的HTML进行分析的快速实时的解析工具。它是一个开源的项目，通过它可以准确高效地对HTML文本中的格式、数据进行处理。利用它可以很容易地对网页的内容进行分析、过滤和抓取。它的主要功能分为以下几个部分：文本信息抽取：提取网页中的文字。链接提取：提取网页中的链接信息和锚文本。资源提取：网页中图片、声音的处理。链接检查：用于... 阅读全文

posted @ 2011-12-13 21:51 glose 阅读(2119) 评论(1) 推荐(0) 编辑

搜索引擎的基本原理

摘要：搜索引擎基本框架图上面是老师上课时给出的搜索引擎基本框架图，主要分为以下三个基本模块： Web信息采集模块目前有很多的Open Source爬虫工具，如Weblech（http://weblech.sourceforge.net/）博士师兄推荐的工具，使用起来比较简单，容易上手，Nutch（http://lucene.apache.org/nutch/）是一个基于Lucene的，类似于Google的解决方案，Larbin，Heritrix，WebSpinx（感觉这个工具也不错，有可视化界面，并且定制功能也特别的强大，准备继续研究）等等。利用这些现有的开源工具（当然也可以利用一些开发包自己.. 阅读全文

posted @ 2011-12-09 10:35 glose 阅读(683) 评论(0) 推荐(0) 编辑

公告

昵称： glose
园龄： 14年5个月
粉丝： 19
关注： 21

+加关注

2025年3月

日

一

二

三

四

五

六

glose

随笔分类 - 搜索引擎与文本挖掘

公告

搜索

常用链接

我的标签

随笔分类

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论