中文分词免费发布ChineseTokenizer.dll

1. 识别率达到85%以上。虽然和专业分词系统相比有一定的差距，但对于中型搜索引擎分词需求而言足够了。

2. 对于前后歧义有较好的识别效果。如，

成都市场报刊 -- 成都 / 市场 / 报刊

中国和服装饰公司 -- 中国 / 和服 / 装饰 / 公司

我的MSN是eudev.net@yeah.net，有事找我 -- 我 / 的 / MSN / 是 / eudev.net@yeah.net / 有事 / 找 / 我

3. 标点符号自动过滤，包括ASCII和Unicode标点。

4. 自定义噪音词（不知道怎么翻译这个词StopWords，平时都说英语的，叫噪音词吧），可手动加入噪音词。

5. 内置13万优选的基本词库，已进行加权值整理，并提供编程接口任意扩充。

6. 轻量级的分词组件，仅1个DLL文件，无需安装注册，发布简便。开发更简单，只需要一行代码调用即可。

7.采用优化算法，加载速度非常快，13万的词库加载与分词仅需0.7秒（首次分词时需要加载词库，在我的笔记本迅驰1代1.4G上测试），之后每次分词（100字内）的速度在0.01秒以内，一般看不见用时，比如分词：

关于那些残忍图片，我不想再发了!!我是彻底愤怒了!!有网友强烈呼吁找出此人，
下面是我找到的一些资料!!!(我是新人,没有任何的道具,希望有前辈能帮忙多放气球)

－－分词结果－－
关于 / 那些 / 残忍 / 图片 / 我 / 不 / 想 / 再 / 发 / 了 / 我 / 是 / 彻底 / 愤怒 / 了 / 有 / 网友 / 强烈 / 呼吁 / 找出 / 此人 / 下面 / 是 / 我 / 找到 / 的 / 一些 / 资料 / 我 / 是 / 新人 / 没有 / 任何 / 的 / 道具 / 希望 / 有 / 前辈 / 能 / 帮忙 / 多 / 放 / 气球

分词用时：00:00:00 000

闲聊

现在业余时间我主要从事搜索引擎开发及相关研究，我已开发电子商务搜索引擎搜价网，http://www.sj110.com，专门搜索互联网上的电脑、数码和手机商品。不过当时估计不住，使用了MSSQL2000作为数据库，使用他自带的全文索引Full-Text，性能令我震撼（贬义）。搜索引擎也发现了很多问题，而且当时的设计并没有加入自动分词，去噪等，搜索信息的干扰明显。

所以现在决心放下屠刀，立地成佛。开始开发搜索引擎第二版，本分词组件正是第二版搜索引擎的重要部件之一（当前发布的是免费版，词库和词库扩展上有些区别，不打算开源和免费发布正式版^_^）。在新的搜索引擎中还使用了新开发的DataQuicker2数据框架、log4net、Lucene等。另外，在正式版中可以与Lucene结合，代替原来的ChineseAnalzer，这个不具备分词能力。如果DuDu对此有兴趣，我可以无偿提供正式版^_^。正式版的特点为：
1，Lucene完美结合，构建高性能、高质量的搜索引擎存储和查询
2，高达25万以上的词库
3，拥有分词组件接口，可以轻松自定义词库

PS: 第二代的搜索引擎将搜索互联网上的所有在线商品，经过了第一代搜索引擎的积累，以及长期以来大量高强度的研究，第二代搜索引擎无论在性能上、用户体念（搜索满足性）、搜索范围上、搜索的效率上都将大幅度提高。第二代搜索引擎的定位就是做成中国的Froogle.com。

另外，现在一直我一个人从事，希望能找到志同道合并且有实力、有时间的朋友合作创业。如果有想法的朋友可以联系我，MSN：eudev.net@yeah.net

先谢谢大家关注与支持了。

搜价网：http://www.sj110.com

下载地址：https://files.cnblogs.com/lovinger2000/ChineseTokenizer.zip
（内附DLL和Winform示例程序，及示例程序的源码）

posted on 2006-03-02 02:52 Eunge 阅读(303) 评论(9) 编辑收藏收藏至365Key 所属分类: Project Knowledge

# re: 中文分词免费发布ChineseTokenizer.dll 2006-03-02 08:32 默石

为什么没有.net framework1.1版本的代码呢？回复

# re: 中文分词免费发布ChineseTokenizer.dll 2006-03-02 08:36 ceocio

不错不错！支持。给偶们学校争光了：）回复

# re: 中文分词免费发布ChineseTokenizer.dll 2006-03-02 08:53 A.Z

不开放源码，不支持！回复

# re: 中文分词免费发布ChineseTokenizer.dll 2006-03-02 09:00 torome

留个脚-关注> 回复

# re: 中文分词免费发布ChineseTokenizer.dll 2006-03-02 09:15 大力

楼主用的是.net2.0呀，能做一个1.1的实例吗？回复

# re: 中文分词免费发布ChineseTokenizer.dll 2006-03-02 09:21 不会飞的鱼

好东东, 收藏回复

# re: 中文分词免费发布ChineseTokenizer.dll 2006-03-02 09:24 ltjabc

哪里有词库？回复

# re: 中文分词免费发布ChineseTokenizer.dll 2006-03-02 10:01 iamsunrise

不知道用什么混合器，回复

# re: 中文分词免费发布ChineseTokenizer.dll 2006-03-02 11:05 Eunge

免费版的词库已经嵌入到DLL中了，正式版的词库单独提供，可以进行修改。大家可以试用.NET 2.0版本的，如果觉得不错，可以联系我开发.NET 1.1版本的，不过嘛，嘿嘿。。。回复

posted on 2006-03-02 11:20 把我的欢乐带给你阅读(971) 评论(0) 收藏举报

刷新页面返回顶部

chiname

公告

中文分词免费发布ChineseTokenizer.dll

评论