搜索引擎中用到的一些拆词方式解析
- 单词多形态(Word Stemming)
单词多态,主要是关系到单词的词根( stem of a word )和通过这个词根变化出来的多个词的过程(Word Stemming),比如,works, 词根是work,可以变成Worker,Workers,Working,Worked等。搜索引擎可以利用这个特点进行词根匹配搜索。但它不是指“近义词”。
-
断词(Word Truncation)
断词是取单词的一部分加上通配符进行搜索。比如:Wor* 可以搜索出Work,Worker,Working等等的单词。
-
近义词(Synonyms)
近义词非常容易理解,就是意义相近,或者意义相同但叫法不同。比如“知了”和“蝉”等。
据了解,Google不支持Word Stemming和Word Truncation。百度也有不少新的语法,可能大家都不知道,可以多去了解一下,比如用“-”号表示排除等。
(博客中都为原创,引用请注明出处,风焰庄主)
(博客中都为原创,引用请注明出处,风焰庄主)