2013 年 12月 3 日随笔档案 - 郑文亮

2013年12月3日

摘要：作者：eaglet 盘古分词开发了多元分词算法，其与lucene.net 配合构建全文搜索，经测试准确度接近google和baidu的水平。现将一些实现方法和测试结果公布出来，供关心分词和搜索技术的朋友们参考。中文分词按照分词粒度来分，分成一元分词，二元分词，多元分词和精确分词等类型。一元分词就是最简单的分词，将所有的中文字符按照单字形式输出。二元分词按双字形式输出。多元分词则是将一句话中可能的单词组合按照一定规则输出，允许输出的词有重叠。精确分词则是将一句话中最准确的单词组合输出，不允许输出的词有重叠。当然这里用精确这个词来修饰只是为了与其他几种分词方法区分，不可能有完全精确的分.. 阅读全文

posted @ 2013-12-03 17:23 郑文亮阅读(1397) 评论(0) 推荐(0) 编辑

通过盘古分词自定义规则功能实现软件版本号的提取

摘要：在某些软件下载网站的全文搜索应用中往往需要根据部分或者全部的版本号来匹配查询。然而对于版本信息的提取，无论是采用增加单词还是其他什么办法都无法很好的实现。好在盘古分词提供了自定义规则的接口，我们可以通过实现自己的自定义规则来完成一些特殊信息的提取。这篇文章也作为盘古分词自定义规则使用的一个示例文章，希望大家看了这篇文章后可以举一反三，实现诸如IP地址提取，Email 提取，网址提取等等特殊提取功能的自定义规则。首先先说一下需求。我们希望将版本信息字符串比如 V1.2.1.0 从文章中提取出来，分词为 v/1.2.1.0/1.2.1/1.2 这种形式，这样无论搜索用户输入 1.2.1.0 阅读全文

posted @ 2013-12-03 16:39 郑文亮阅读(560) 评论(0) 推荐(0) 编辑

公告