搜索引擎原理(二)之正文提取和中文分词

1. 网页提取正文的方法有哪些?

基于统计信息: 基于DOM的网页主题信息自动提取, 使用特征文本密度的网页正文提取, 基于标签密度的自适应正文提取方法, 基于行块分布函数的正文提取方法。

基于视觉

基于决策树

基于包装器

2. 有哪些中文分词方法

基于字符串匹配的分词方法

一般的做法是首选根据停顿词(比如:的,是等)将字符串分解多个更小的字符串,之后在对分解后的字符串分词,该分词方法有几类分词规则:正向匹配,逆向匹配;最少切分(一个字符串中切分的词最少),或者是如上几类分词规则的组合。

基于理解的分词方法,

这种分词方法是通过让计算机模拟人对句子的理解,达到识别词的效果。其基本思想就是在分词的同时进行句法、语义分析,利用句法信息和语义信息来处理歧义现象。它通常包括三个部分:分词子系统、句法语义子系统、总控部分。在总控部分的协调下,分词子系统可以获得有关词、句子等的句法和语义信息来对分词歧义进行判断,即它模拟了人对句子的理解过程。这种分词方法需要使用大量的语言知识和信息。由于汉语语言知识的笼统、复杂性,难以将各种语言信息组织成机器可直接读取的形式,因此目前基于理解的分词系统还处在试验阶段。

基于通过的分词方法

从形式上看,词是稳定的字的组合,因此在上下文中,相邻的字同时出现的次数越多,就越有可能构成一个词。因此字与字相邻共现的频率或概率能够较好的反映成词的可信度。可以对语料中相邻共现的各个字的组合的频度进行统计,计算它们的互现信息。定义两个字的互现信息,计算两个汉字X、Y的相邻共现概率。互现信息体现了汉字之间结合关系的紧密程度。当紧密程度高于某一个阈值时,便可认为此字组可能构成了一个词。

3. 中分分词的难点是什么

1、歧义识别

2、新词识别

4. 现有的流行的搜索引擎的采用了哪些分词方法

百度分词算法简单与复杂并存,有正向最大匹配,反向最大匹配,双向最大匹配,语言模型方法,最短路径算法等等,

谷歌采取的是逆向最大匹配法,并印证了对专有名词和新词识别能力差。

posted @ 2014-07-06 23:00  褐色礁石  阅读(338)  评论(0编辑  收藏  举报