随笔 - 198  文章 - 1  评论 - 587  阅读 - 51万

随笔分类 -  中文分词

学习lucene.net的好网站(不断添加)
摘要:http://incubator.apache.org/lucene.net/http://space.cnblogs.com/group/topic/4683/http://www.cnblogs.com/idior/category/21216.html 阅读全文
posted @ 2009-11-20 00:42 上午的绝缘杯 阅读(461) 评论(0) 推荐(0) 编辑
[转]lucene、lucene.NET详细使用与优化详解
摘要:1lucene简介1.1什么是luceneLucene是一个全文搜索框架,而不是应用产品。因此它并不像www.baidu.com或者googleDesktop那么拿来就能用,它只是提供了一种工具让你能实现这些产品。1.2lucene能做什么要回答这个问题,先要了解lucene的本质。实际上lucene的功能很单一,说到底,就是你给它若干个字符串,然后它为你提供一个全文搜索服务,告诉你你要搜索的关键... 阅读全文
posted @ 2009-11-20 00:39 上午的绝缘杯 阅读(1026) 评论(1) 推荐(0) 编辑
[转]Lucene中文分析器的中文分词准确性和性能比较
摘要:Lucene中文分析器的中文分词准确性和性能比较 作者: approximation 对几种中文分析器,从分词准确性和效率两方面进行比较。分析器依次为:StandardAnalyzer、ChineseAnalyzer、 CJKAnalyzer、IK_CAnalyzer、MIK_CAnalyzer、MMAnalyzer(JE分词)、PaodingAnalyzer。单纯的中文分词的实现一般为按字索引或... 阅读全文
posted @ 2009-11-20 00:34 上午的绝缘杯 阅读(1111) 评论(0) 推荐(0) 编辑
分词系统研究完整版
摘要:ICTClAS分词系统是由中科院计算所的张华平、刘群所开发的一套获得广泛好评的分词系统,难能可贵的是该版的Free版开放了源代码,为我们很多初学者提供了宝贵的学习材料。 但有一点不完美的是,该源代码没有配套的文档,阅读起来可能有一定的障碍,尤其是对C/C++不熟的人来说.本人就一直用Java/VB作为主要的开发语言,C/C++上大学时倒是学过,不过工作之后一直没有再使用过,语法什么的忘的几乎一干... 阅读全文
posted @ 2009-06-17 14:59 上午的绝缘杯 阅读(687) 评论(1) 推荐(0) 编辑
中文分词备忘
摘要:最近自己做了个信息查询的东西,方便记录乱七八糟的东西, 查询时用到了中文分词,特此记录需要的资料,以备需要。 http://www.solol.org/ 是一个开放源代码的中文分词软件包,可以方便的和Lucene集成 http://lucene.apache.org/ Lucene 的官方主页 http://www.lietu.com/doc/index.htm 猎兔搜索技术文档 http... 阅读全文
posted @ 2008-04-09 11:46 上午的绝缘杯 阅读(387) 评论(1) 推荐(0) 编辑


点击右上角即可分享
微信分享提示