[置顶] Lucene中AttributeSource作为TokenStream父类的原因

摘要: lucene3.0lucene中有如下的类层次:org.apache.lucene.util.AttributeSourceorg.apache.lucene.analysis.TokenStream (implements java.io.Closeable) org.apache.lucene.analysis.NumericTokenStream org.apache.lucene.analysis.TeeSinkTokenFilter.SinkTokenStream org.apache.lucene.analysis.TokenFilter org.apache.lucene.ana 阅读全文

posted @ 2011-06-10 22:42 zhou518zhou 阅读(1810) 评论(1) 推荐(3) 编辑

2012年2月4日

Auto_Parser

摘要: 使用HtmlParser编写的抽取程序的缺点:1.用Htmlparser写的程序很难去维护。2.能否将要抽取的信息的定义和htmlparser程序分离?3.用简单的办法解决问题。抽取规则XML文件的编写规范一.基础Html文档由一系列的标签节点组成,这些节点使用树形结构组织,每一个标签节点由TagName,Attributes,以及ChildTags组成,我们要抽取一个信息总是要先对应到一个具体的标签节点上,然后再对这个标签节点进行操作从而获取要的信息,所要的信息可能是这个标签的某个属性,或者这个标签在界面上输出的字符串(忽略格式),或者是这个标签的Html等等,因此在抽取之前首先要定位到信息 阅读全文

posted @ 2012-02-04 22:12 zhou518zhou 阅读(1261) 评论(0) 推荐(0) 编辑

2011年9月7日

ucene3.0 分页显示与高亮显示 实现的 分页 与 高亮显示

摘要: lucene3.0 分页显示与高亮显示 实现的 分页 与 高亮显示出处:http://bjqincy.iteye.com/blog/784817分页类Java代码packagecom.cee.com;importjava.util.List;//分页类publicclassPageBean{privateListlist;//要返回的某一页的记录列表privateintallRow;//总记录数privateinttotalPage;//总页数privateintcurrentPage;//当前页privateintpageSize;//每页记录数privateintoffset;public 阅读全文

posted @ 2011-09-07 19:31 zhou518zhou 阅读(478) 评论(0) 推荐(0) 编辑

2011年9月1日

来杯咖啡-装饰者模式(Decorator) 2008-12-29 作者:王晓亮 来源:cnblogs.com

摘要: 前言上篇【观察者模式】发布已经近一个月了,个人感觉反应并不太理想,因为大家响应都不是很积极,不知是文章那里写得有问题,而且也没有人提出过有价值的改进建议,多少感觉有些失望L!因为工作繁忙,所以不可能把主要精力投入到写作上,因此这个系列的文章更新有些缓慢,但是每篇文章我一直坚持高质量(这是最重要的),而且同样注重大家的反馈,一直希望大家能以这些文章为媒介,换来思想碰撞的火花,使每篇文章都能成为大家共同进步的起点而不是终点,所以还是呼吁大家看过文章后能踊跃发言、各抒己见,这里永远欢迎来自不同“频率和波段”的声音!(我的神啊!让我们的小宇宙燃烧得更猛烈一些吧!J)这次我们先通过HFDP里咖啡的故事做 阅读全文

posted @ 2011-09-01 10:58 zhou518zhou 阅读(298) 评论(0) 推荐(0) 编辑

2011年8月28日

正则表达式教程

摘要: 正则表达式30分钟入门教程来园子之前写的一篇正则表达式教程,部分翻译自codeproject的The 30 Minute Regex Tutorial。由于评论里有过长的URL,所以本页排版比较混乱,推荐你到原处查看,看完了如果有问题,再到这里来提出.一些要说的话:如果你没有正则表达式的基础,请跟着教程“一步步来”。请不要大概地扫两眼就说看不懂——以这种态度我写成什么样你也看不懂。当我告诉你这是“30分钟入门教程”时,请不要试图在30秒内入门。事实是,我身边有个才接触电脑,对操作都不是很熟练的人通过自己学习这篇教程,最后都能在文章采集系统中使用正则表达式完成任务。而且,他写的表达式中,还使用了 阅读全文

posted @ 2011-08-28 09:40 zhou518zhou 阅读(131) 评论(0) 推荐(0) 编辑

向量空间模型

摘要: 本文是转载而来,原博客地址:http://www.cnblogs.com/caihongwu/archive/2009/09/07/1561952.html向量空间模型将文档映射为一个特征向量V(d)=(t1,ω1(d);…;tn, ωn(d)),其中ti(i=1,2, …,n)为一列互不雷同的词条项,ωi(d)为ti在d中的权值, 一般被定义为ti在d中出现频率tfi(d)的函数,即。在信息检索中常用的词条权值计算方法为 TF-IDF 函数,其中N为所有文档的数目,ni为含有词条ti的文档数目。TF-IDF公式有很多变种,下面是一个常用的TF-IDF公式:根据TF-IDF公式,文档集中包含某 阅读全文

posted @ 2011-08-28 09:37 zhou518zhou 阅读(271) 评论(0) 推荐(0) 编辑

2011年8月3日

regex

摘要: (PS:这篇文章为转载,我不喜欢转载的但我觉得这篇文章实在是超赞了,就转了过来,这篇可以说是学习JAVA正则表达的必读篇。作者是个正真有功力的人,阅读愉快) 在Sun的Java JDK 1.40版本中,Java自带了支持正则表达式的包,本文就抛砖引玉地介绍了如何使用java.util.regex包。 可粗略估计一下,除了偶尔用Linux的外,其他Linu x用户都会遇到正则表达式。正则表达式是个极端强大工具,而且在字符串模式-匹配和字符串模式-替换方面富有弹性。在Unix世界里,正则表达式几乎没有什么限制,可肯定的是,它应用非常之广泛。 正则表达式的引擎已被许多普通的Unix工具所实现,包括g 阅读全文

posted @ 2011-08-03 09:37 zhou518zhou 阅读(7523) 评论(0) 推荐(1) 编辑

2011年7月27日

Composite 模式

摘要: 《本文是转载而来》本文从一个给定的实现了组合(Composite)模式的例子开始,说明怎么在这个数据结构上实现业务逻辑代码。依次介绍了非面向对象的方式、在组合结构中加入方法、使用访问者(Visitor)模式以及用改进后的访问者(Visitor)模式来实现相同的业务逻辑代码,并且对于每种实现分别给出了优缺点。读者定位于具有Java程序开发和设计模式经验的开发人员。读者通过本文可以学到如何在组合(Composite)模式中实现各种不同的业务方法及其优缺点。组合(Composite)模式组合模式是结构型模式中的一种。GOF的《设计模式》一书中对使用组合模式的意图描述如下:将对象组合成树形结构以表示& 阅读全文

posted @ 2011-07-27 21:48 zhou518zhou 阅读(263) 评论(0) 推荐(0) 编辑

2011年6月18日

构建实时索引

摘要: 文章是转载而来,原博主地址:http://www.cnblogs.com/forfuture1978/所谓事务性,本多指数据库的属性,包括ACID四个基本要素:原子性(Atomicity)、一致性(Consistency)、隔离性(Isolation)、持久性(Durability)。我们这里主要讨论隔离性,Lucene的IndexReader和IndexWriter具有隔离性。当IndexReader.open打开一个索引的时候,相对于给当前索引进行了一次snapshot,此后的任何修改都不会被看到。仅当IndexReader.open打开一个索引后,才有可能看到从上次打开后对索引的修改。当 阅读全文

posted @ 2011-06-18 18:49 zhou518zhou 阅读(2354) 评论(0) 推荐(0) 编辑

导航