05 2013 档案

摘要:Sql Azure不支持全文索引的,所以微软官方推荐的做法是基于lucene来做全文索引,而且也有一个基于Azure Storage的Lucene.Net开源组件,已经支持到了最新的lucene.net 3.0.3。可以在CodePlex上下载到最新代码“AzureDirectory Library for Lucene.Net”http://azuredirectory.codeplex.com/,也可以通过NuGet获取。在使用过程中,发现检索速度的话,第一次很慢,因为它要把Storage的索引文件同步到本地缓存目录,后面就快了,都是从本地读取。这个机制有个很大的问题,就是如果索引文件大, 阅读全文
posted @ 2013-05-31 10:32 宝玉 阅读(1259) 评论(1) 推荐(2) 编辑
摘要:好多年没升级过的Lucene.Net最近居然升级了,到了3.0.3后接口发生了很大变化,原来好多分词库都不能用了,所以上次我把MMSeg给修改了一下支持了Lucene.Net 3.0.3(参考《基于MMSeg算法的中文分词类库》)。然后我知道了.Net下还有一个盘古分词(http://pangusegment.codeplex.com/),但也不支持Lucene.Net 3.0.3,网上也不少人在问,于是就下载了它的最新代码,基于Lucene.Net 3.0.3更新了,顺便把它的词库给放到dll里面了,不然每次还要拷贝一个Dictionaries目录真麻烦。另外打包放到了Nuget上,方便下载 阅读全文
posted @ 2013-05-27 20:27 宝玉 阅读(7099) 评论(25) 推荐(9) 编辑
摘要:最近在实现基于lucene.net的搜索方案,涉及中文分词,找了很多,最终选择了MMSeg4j,但MMSeg4j只有Java版,在博客园上找到了*王员外*(http://www.cnblogs.com/land/archive/2011/07/19/mmseg4j.html)基于Java版的翻译代码,但它不支持最新的Lucene.Net 3.0.3,于是基于它的代码升级升级到了最新版Lucene.Net (≥ 3.0.3),同时将其中大部分Java风格代码修改为.Net风格,并修正了其中几个小错误。为了方便大家使用,我把修改后代码放到Github上了,并包含简单示例代码。另外,为了方便使用,制 阅读全文
posted @ 2013-05-09 22:46 宝玉 阅读(4005) 评论(5) 推荐(5) 编辑

点击右上角即可分享
微信分享提示