摘要:
一般来讲,根据不同应用,汉语分词的颗粒度大小应该不同。比如,在机器翻译中,颗粒度应该大一些,“北京大学”就不能被分成两个词。而在语音识别中,“北京大学”一般是被分成两个词。因此,不同的应用,应该有不同的分词系统。 利用统计语言模型分词的方法,可以用几个数学公式简单概括如下:我们假定一个句子S可以有几种分词方法,为了简单起见我们假定有以下三种:A1, A2, A3, ..., Ak,B1, B2, ... 阅读全文
posted @ 2009-01-25 02:06 Zhiyett 阅读(1496) 评论(1) 推荐(0) 编辑