搜索引擎学习-概述
定义
从互联网上搜索,通过文本匹配,采取一些手段找到最好的信息。
结果衡量
- 相关性-结果与query的匹配,结果与用户需求的匹配
- 权威性-结果被引用次数(超链),链接分析
- 时效性-结果对用户是有用新鲜的
- 多样性-根据用户行为返回丰富的结果(苹果?)
- 个性化-地域、用户喜好
- 反spam
搜索步骤
数据的处理:
- 抓取网页(高效、实时)
- 建立网页库,存储数据(海量)
- 建立索引
- 信息抽取、特征生产
- query分析、切词
- 倒排索引
- 结果排序(相关性计算)
- 展现
问题
通过上面可以了解搜索引擎的基本流程和原理,但是具体实现并用于实际服务中,就会有各种问题需要解决:
- 网页的发现、高效及时的抓取
- 海量数据的存储和处理
- 相关性的计算
- query分析:
- 基本分析(切词)- term重要性计算,查询模式,term紧密度分析;
- 需求分析 - 需求扩展、时效性检查、需求类型识别
- query变换
- 对用户需求快速、稳定的响应
- 丰富的展现
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】凌霞软件回馈社区,博客园 & 1Panel & Halo 联合会员上线
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】博客园社区专享云产品让利特惠,阿里云新客6.5折上折
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步