提高搜索引擎准确度,停用词
停用词
对于一个给定的目的,任何一类的词语都可以被选作停用词。通常意义上,停用词大致分为两类:
1、人类语言中包含的功能词:这些功能词极其普遍,与其他词相比,功能词没有什么实际含义,比如 the、is、at、which、on 等。但是对于搜索引擎来说,当所要搜索的短语包含功能词,特别是像 The Who、Take That 等复合名词时,停用词的使用就会导致问题。
2、词汇词:比如 want 等,这些词应用十分广泛,但是对这样的词搜索引擎无法保证能够给出真正相关的搜索结果,难以帮助缩小搜索范围,同时还会降低搜索的效率,所以通常会把这些词从问题中移去,从而提高搜索性能。
本文作者:Nolca
本文链接:https://www.cnblogs.com/nolca/p/17866718.html
版权声明:本作品采用 收益分享revenue sharing 许可协议进行许可。
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
2022-11-30 二进制炸弹bomb 计算机组成原理作业实战