摘要: 所谓索引建立,就是对一堆文档的内容建立一个索引表,当然是传说中的倒排索引。倒排索引:倒排索引源于实际应用中需要根据属性的值来查找记录。这种索引表中的每一项都包括一个属性值和具有该属性值的各记录的地址。由于不是由记录来确定属性值,而是由属性值来确定记录的位置,因而称为倒排索引(inverted index)。带有倒排索引的文件我们称为倒排索引文件,简称倒排文件(inverted file)。为了继续说明倒排文件,看看一下两个概念点:(1)顺排文件假设有网页P1,P2,……,Pn,给每个网页文件赋予一个编号Pid,给每个关键字赋予一个编号keyi,假设key是网页文件中的一个关键字,ni表示该关键 阅读全文
posted @ 2013-01-07 23:01 烤德 阅读(1459) 评论(3) 推荐(2) 编辑
摘要: 针对HTML抽取,相信很多人都听说过或者使用过HtmlParser。htmlparser是一个纯的java写的html解析的库,它不依赖于其它的java库文件,主要用于改造或提取html。不能说它能超高速解析html,但他的解析质量比较好,不容易出错。毫不夸张地说,htmlparser就是目前功能最强大的java html解析和分析的工具。HtmlParser项目网站:http://htmlparser.sourceforge.net/.入门学习HtmlParser的不妨参考《HtmlParser使用入门》这篇博客,当然一些使用技巧,也可参考《HTMLParser 学习》、《HTMLPars. 阅读全文
posted @ 2013-01-07 18:12 烤德 阅读(955) 评论(0) 推荐(0) 编辑