网络营销教程—SEO 第二章 搜索引擎(第二节)
第二节
中文自动分词是网页分析的基础。在网页分析的过程中,中文与英文的处理方式是不同的,这是因为中文信息与英文信息有一个明显的差别: 英文单词之间有空格,而中文文本中词与词之间没有分割符。这就要求在对中文网页进行分析之前,先要将网页中的句子切割成一个个的词的序列,这就是中文分词。中文自动分词涉及到许多自然语言处理技术和评价标准,在搜索引擎中,我们主要关心中文自动分词的速度和准确度。分词准确性对搜索引擎来说十分重要,但如果分词速度太慢,即使准确性再高,对于搜索引擎来说也是不可用的,因为搜索引擎需要处理数以亿计的网页,如果分词耗用的时间过长,会严重影响搜索引擎内容更新的速度。因此,搜索引擎对分词的准确性和速度都提出了很高的要求。
分词词典是影响中文自动分词的一个重要因素,其规模一般在6万条词左右,词典太大或太小都是不合适的; 辞典太小,有些词切分不出来,辞典太大,切分过程中起义现象将大大增加,同样影响分词的精度。因此,分词词典中词条的选择是非常严格的。对于不断出现新词的网络领域,仅仅使用6万条词左右的分词词典是不够的,但随意向分词词典中加入新词将导致分词精度下降,一般的解决方法是使用辅助词典,其规模在50万词条左右。另外,中文自动分词的难点在于分词歧义的处理和未登录词的识别,如何处理这两个问题一直是该领域研究的热点。
1、歧义处理
歧义是指可能有两种或者更多的切分方法。例如: “表面的”这个词组,因为“表面”和“面的”都是词,那么这个短语就可以分成“表面+的”和“表+面的”。这种称为交叉歧义。像这种交叉歧义十分常见,“化妆和服装”可以分成“化妆+和+服装”或者“化妆+和服+装”。由于没有人的知识去理解,计算机很难知道到底哪个方案正确。
对歧义现象的处理方法一般采用类似于动态规划的算法将歧义问题的求解转化为一个优化问题的求解。在求解过程中,一般使用词频或概率等辅助信息求得一个最大可能的分词结果,这个结果在某种意义下是最佳的。
2、
未登录词就是分词词典中没有的词,也称为新词。最典型的是人名、地名、专业术语等。例如,人可以很容易理解句子“王军虎去广州了”中,“王军虎”是个词,因为是一个人的名字,但要是让计算机去识别就困难了。如果把“王军虎”作为一个词收录到字典中去,全世界有那么多名字,而且每时每刻都有新增的人名,收录这些人名本身就是一项巨大的工程。即使这项工作可以完成,还是会存在问题,例如: 在句子“王军虎头虎脑”中的,“王军虎”还能不能算词?
目前,中文自动分词技术在搜索引擎中已经得到广泛应用,分词准确度已经达到96%以上,但是在对大规模网页进行分析处理的时候,现有的中文自动分词技术还存在许多不足,例如上面提到的歧义问题和未登录词的处理问题等。因此,国内外的科研院校,如北大、清华、中科院、北京语言学院、东北大学、IBM研究院、微软中国研究院等都一直关注并研究中文自动分词技术,这主要是因为网络上的中文信息越来越多,对网络上的中文信息的处理必将成为一个巨大的产业和广阔的市场,存在无限的商机。但是,中文自动分词技术要想更好地服务于网络中文信息的处理并形成产品,还要在基础研究方面和系统的集成方面做许多工作。