01 2022 档案

摘要:一、推荐系统简介 推荐系统主要基于对用户历史的行为数据分析处理,寻找得到用户可能感兴趣的内容,从而实现主动向用户推荐其可能感兴趣的内容; 从物品的长尾理论来看,推荐系统通过发掘用户的行为,找到用户的个性化需求,从而将长尾商品准确地推荐给需要它的用户,帮助用户发现那些他们感兴趣但很难发现的商品。 推荐 阅读全文
posted @ 2022-01-27 08:39 无风听海 阅读(1359) 评论(0) 推荐(0) 编辑
摘要:六、莱文斯坦编辑距离 前边的几种距离计算方法都是针对相同长度的词项,莱文斯坦编辑距离可以计算两个长度不同的单词之间的距离;莱文斯坦编辑距离是通过添加、删除、或者将一个字符替换为另外一个字符所需的最小编辑次数; 我们假设两个单词u、v的长度分别为i、j,则其可以分以下几种情况进行计算 当有一个单词的长 阅读全文
posted @ 2022-01-24 07:59 无风听海 阅读(559) 评论(0) 推荐(2) 编辑
摘要:一、词项相似度 elasticsearch支持拼写纠错,其建议词的获取就需要进行词项相似度的计算;今天我们来通过不同的距离算法来学习一下词项相似度算法; 二、数据准备 计算词项相似度,就需要首先将词项向量化;我们可以使用以下两种方法 字符向量化,其将每个字符映射为一个唯一的数字,我们可以直接使用字符 阅读全文
posted @ 2022-01-20 08:40 无风听海 阅读(617) 评论(0) 推荐(0) 编辑
摘要:一、什么是拼写纠错 拼写纠错就是搜索引擎可以智能的感知用户输入关键字的错误,并使用纠正过的关键字进行搜索展示给用户;拼写纠错是一种改善用户体验的功能; elasticsearch提供了以下不同类型的suggester来完成拼写纠错和自动完成功能; term suggester主要针对单个的term分 阅读全文
posted @ 2022-01-16 22:37 无风听海 阅读(1045) 评论(0) 推荐(0) 编辑
摘要:拼音搜索在中文搜索环境中是经常使用的一种功能,用户只需要输入关键词的拼音全拼或者拼音首字母,搜索引擎就可以搜索出相关结果。在国内,中文输入法基本上都是基于汉语拼音的,这种在符合用户输入习惯的条件下缩短用户输入时间的功能是非常受欢迎的; 一、安装拼音搜索插件 下载对应版本的elasticsearch- 阅读全文
posted @ 2022-01-14 08:59 无风听海 阅读(452) 评论(0) 推荐(0) 编辑
摘要:IK是基于字典的一款轻量级的中文分词工具包,可以通过elasticsearch的插件机制集成; 一、集成步骤 1.在elasticsearch的安装目录下的plugin下新建ik目录; 2.在github下载对应版本的ik插件; https://github.com/medcl/elasticsea 阅读全文
posted @ 2022-01-11 22:44 无风听海 阅读(690) 评论(0) 推荐(1) 编辑
摘要:一、MongoDB如何选择索引 如果我们在Collection建了5个index,那么当我们查询的时候,MongoDB会根据查询语句的筛选条件、sort排序等来定位可以使用的index作为候选索引;然后MongoDB会创建对应数量的查询计划,并分别使用不同线程执行查询计划,最终会选择一个执行最快的i 阅读全文
posted @ 2022-01-11 08:33 无风听海 阅读(805) 评论(0) 推荐(0) 编辑
摘要:一、inner hits简介 elasticsearch提供了nested数据类型来处理主子文档的问题,可以解决子文档字段被分裂平铺导致字段之间失去了整体的关联性; elasticsearch提供的inner hits主要完成在通过子文档进行匹配查询的时候,可以方便控制匹配的子文档的返回; 二、数据 阅读全文
posted @ 2022-01-06 22:39 无风听海 阅读(2486) 评论(1) 推荐(0) 编辑
摘要:一、什么是子字符串查找 子字符串查找是一种基本的字符串操作,是给定一段长度为N的文本和一个长度为M的模式(pattern)字符串,在文本中找到一个和该模式相符的子字符串的操作; 在实际的应用场景中,模式相对文本来说是很短的,即M远小于N,我们一般也会对模式进行预处理来支持在文本中的快速查找。 二、测 阅读全文
posted @ 2022-01-04 08:54 无风听海 阅读(751) 评论(1) 推荐(2) 编辑

点击右上角即可分享
微信分享提示