摘要: 在中文分词的实现过程中,词典的设计是相当重要的一步,基于整词二分或者逐字二分的分词算法使用的是比较经典的词典结构该词典结构分为三级,前两级是索引。本文解决词典存储时候的哈希表一键多值:从底层开始实现:1.首先是词典正文的设计:存储在List<string>结构中,其索引就是每个词在List<string>中的下标List<string> WordList = new List<string>();SqlConnection conn = new SqlConnection(SqlConString);conn.Open();SqlCommand 阅读全文
posted @ 2012-04-20 14:52 lijingpeng 阅读(1964) 评论(0) 推荐(0) 编辑
摘要: SQL SERVER提供了大量的WINDOWS和SQLSERVER专用的排序规则初始选择结果select * from WordDictionary下面是按照汉字拼音排序select * from WordDictionary order by word collate Chinese_PRC_CS_AS_KS_WS其中:_CI(CS) 是否区分大小写,CI不区分,CS区分_AI(AS) 是否区分重音,AI不区分,AS区分 _KI(KS) 是否区分假名类型,KI不区分,KS区分 _WI(WS) 是否区分宽度 WI不区分,WS区分 阅读全文
posted @ 2012-04-20 14:24 lijingpeng 阅读(15817) 评论(0) 推荐(1) 编辑