First we try, then we trust

  博客园 :: 首页 :: 博问 :: 闪存 :: 新随笔 :: 联系 :: 订阅 订阅 :: 管理 ::

2007年3月8日

摘要: 从前文可以看出,ICTCLAS中DynamicArray类在初步分词过程中起到了至关重要的所用,而ICTCLAS中DynamicArray类的实现比较复杂,可以说是包罗万象,在一个GetElement方法就综合考虑了1)row优先排序的链表;2)col优先排序的链表;3)当nRow为-1时的行为;4... 阅读全文
posted @ 2007-03-08 23:13 吕震宇 阅读(6055) 评论(4) 推荐(0) 编辑

摘要: 具体内容请访问我的文章《SharpICTCLAS分词系统简介(1)读取词典库》《SharpICTCLAS分词系统简介(2)初步分词》 阅读全文
posted @ 2007-03-08 14:36 吕震宇 阅读(8327) 评论(2) 推荐(0) 编辑

摘要: ICTCLAS初步分词包括:1)原子切分;2)找出原子之间所有可能的组词方案;3)N-最短路径中文词语粗分三步。 例如:“他说的确实在理”这句话。 1)原子切分的目的是完成单个汉字的切分。经过原子切分后变成“始##始/他/说/的/确/实/在/理/末##末”。 2)然后根据“词库字典”找出所有原子之间... 阅读全文
posted @ 2007-03-08 14:27 吕震宇 阅读(9775) 评论(7) 推荐(0) 编辑

摘要: ICTCLAS分词的总体流程包括:1)初步分词;2)词性标注;3)人名、地名识别;4)重新分词;5)重新词性标注这五步。就第一步分词而言,又细分成:1)原子切分;2)找出原子之间所有可能的组词方案;3)N-最短路径中文词语粗分三步。 在所有内容中,词典库的读取是最基本的功能。ICTCLAS中词典存放... 阅读全文
posted @ 2007-03-08 14:25 吕震宇 阅读(11858) 评论(8) 推荐(0) 编辑