导航

随笔分类 -  搜索引擎

摘要:最近使用Lucene.NET做日期字段排序,使用Lucene.NET的日期转换函数生成的Long类型数据只能使用String比较方式,但使用Int方式拥有更高的效率,所以编写了此函数,只能精确到分钟,对日期精度要求高的场合就没办法了,见代码: Code Code highlighting produced by Actipro CodeHighlighter (freeware)htt... 阅读全文

posted @ 2008-10-23 16:47 REMING 阅读(1032) 评论(1) 推荐(0) 编辑

摘要:采用C#开发,支持RSS0.9,RSS0.91,RSS0.92,RSS0.93,RSS1,RSS2,Atom0.3,Atom1,Opml1,Opml2协议和部分模块,但现在还不是很完善。如有需要可以联系nsharp at 8u8.com或参考http://gforge.oss.org.cn/projects/rssfeeder/。 阅读全文

posted @ 2007-09-07 09:55 REMING 阅读(1002) 评论(6) 推荐(0) 编辑

摘要:请参考 http://www.infosecwriters.com/text_resources/pdf/CookieCorePartA.pdf http://nchc.dl.sourceforge.net/sourceforge/odessa/IE_Cookie_File_Reconstruction.pdf 阅读全文

posted @ 2007-08-23 22:32 REMING 阅读(1500) 评论(1) 推荐(0) 编辑

摘要:- 在.Net的IO操作中经常会用到Stream和Byte[],有两种形式: 一.Stream->Byte[]: 1.如果Stream的 Length属性可读,非常的简单,代码如下: 1 private byte[] GetBytes(Stream stream) 2 { 3 if (stream.CanSeek && stream.CanRe... 阅读全文

posted @ 2007-05-29 13:53 REMING 阅读(459) 评论(0) 推荐(0) 编辑

摘要:今天在做Lucene检索的时候,做了一个在结果中查询的功能,但是当两个关键字一样的时候,总是出现错误,经过检查,原来错误出现在这里:TermQuery.cs public override void ExtractTerms(System.Collections.Hashtable terms){ Term term = GetTerm(); term... 阅读全文

posted @ 2007-03-28 11:20 REMING 阅读(337) 评论(0) 推荐(0) 编辑

摘要:BloomFilter算法在搜索引擎方面的应用一般作为URL消重(http://wiki.commerce.net/wiki/URL_History_Bloom_Filters或http://tianchunfeng.spaces.live.com/blog/cns!819E33AA1808A272!288.entry),其具体原理请参考:http://blog.csdn.net/jiaomeng... 阅读全文

posted @ 2007-03-09 10:33 REMING 阅读(879) 评论(0) 推荐(0) 编辑

摘要:由于工作的需要,最近一直在研究Lucene.Net,在测试中我发现当索引库达到5GB左右的时候,搜索速度将变得奇慢。在网上查找一些资料,说分词器会影响搜索速度,但又苦于好的免费的分词器,于是只有改写Java版的CJKAnalyzer,我把它共享给大家。虽然我很久就申请了这个Blog,但是一直没有写什么东西,这篇文章也算是我的处女作,希望今后能够和大家多多交流。 1 2/**//** 3 * Co... 阅读全文

posted @ 2006-11-24 20:08 REMING 阅读(2706) 评论(1) 推荐(1) 编辑