01 2022 档案

elasticsearch算法之推荐系统的相似度算法(一)

摘要：一、推荐系统简介推荐系统主要基于对用户历史的行为数据分析处理，寻找得到用户可能感兴趣的内容，从而实现主动向用户推荐其可能感兴趣的内容；从物品的长尾理论来看，推荐系统通过发掘用户的行为，找到用户的个性化需求，从而将长尾商品准确地推荐给需要它的用户，帮助用户发现那些他们感兴趣但很难发现的商品。推荐阅读全文

posted @ 2022-01-27 08:39 无风听海阅读(1359) 评论(0) 推荐(0) 编辑

elasticsearch算法之词项相似度算法(二)

摘要：六、莱文斯坦编辑距离前边的几种距离计算方法都是针对相同长度的词项，莱文斯坦编辑距离可以计算两个长度不同的单词之间的距离；莱文斯坦编辑距离是通过添加、删除、或者将一个字符替换为另外一个字符所需的最小编辑次数；我们假设两个单词u、v的长度分别为i、j，则其可以分以下几种情况进行计算当有一个单词的长阅读全文

posted @ 2022-01-24 07:59 无风听海阅读(559) 评论(0) 推荐(2) 编辑

elasticsearch算法之词项相似度算法(一)

摘要：一、词项相似度 elasticsearch支持拼写纠错，其建议词的获取就需要进行词项相似度的计算；今天我们来通过不同的距离算法来学习一下词项相似度算法；二、数据准备计算词项相似度，就需要首先将词项向量化；我们可以使用以下两种方法字符向量化，其将每个字符映射为一个唯一的数字，我们可以直接使用字符阅读全文

posted @ 2022-01-20 08:40 无风听海阅读(617) 评论(0) 推荐(0) 编辑

elasticsearch拼写纠错之Term Suggester

摘要：一、什么是拼写纠错拼写纠错就是搜索引擎可以智能的感知用户输入关键字的错误，并使用纠正过的关键字进行搜索展示给用户；拼写纠错是一种改善用户体验的功能； elasticsearch提供了以下不同类型的suggester来完成拼写纠错和自动完成功能； term suggester主要针对单个的term分阅读全文

posted @ 2022-01-16 22:37 无风听海阅读(1045) 评论(0) 推荐(0) 编辑

elasticsearch之拼音搜索

摘要：拼音搜索在中文搜索环境中是经常使用的一种功能，用户只需要输入关键词的拼音全拼或者拼音首字母，搜索引擎就可以搜索出相关结果。在国内，中文输入法基本上都是基于汉语拼音的，这种在符合用户输入习惯的条件下缩短用户输入时间的功能是非常受欢迎的；一、安装拼音搜索插件下载对应版本的elasticsearch- 阅读全文

posted @ 2022-01-14 08:59 无风听海阅读(452) 评论(0) 推荐(0) 编辑

elasticsearch之集成中文分词器

摘要：IK是基于字典的一款轻量级的中文分词工具包，可以通过elasticsearch的插件机制集成；一、集成步骤 1.在elasticsearch的安装目录下的plugin下新建ik目录； 2.在github下载对应版本的ik插件； https://github.com/medcl/elasticsea 阅读全文

posted @ 2022-01-11 22:44 无风听海阅读(690) 评论(0) 推荐(1) 编辑

MongoDB之几种情况下的索引选择策略

摘要：一、MongoDB如何选择索引如果我们在Collection建了5个index，那么当我们查询的时候，MongoDB会根据查询语句的筛选条件、sort排序等来定位可以使用的index作为候选索引；然后MongoDB会创建对应数量的查询计划，并分别使用不同线程执行查询计划，最终会选择一个执行最快的i 阅读全文

posted @ 2022-01-11 08:33 无风听海阅读(805) 评论(0) 推荐(0) 编辑

elasticsearch之警惕inner hits的性能问题

摘要：一、inner hits简介 elasticsearch提供了nested数据类型来处理主子文档的问题，可以解决子文档字段被分裂平铺导致字段之间失去了整体的关联性； elasticsearch提供的inner hits主要完成在通过子文档进行匹配查询的时候，可以方便控制匹配的子文档的返回；二、数据阅读全文

posted @ 2022-01-06 22:39 无风听海阅读(2486) 评论(1) 推荐(0) 编辑

子字符串查找算法

摘要：一、什么是子字符串查找子字符串查找是一种基本的字符串操作，是给定一段长度为N的文本和一个长度为M的模式（pattern）字符串，在文本中找到一个和该模式相符的子字符串的操作；在实际的应用场景中，模式相对文本来说是很短的，即M远小于N，我们一般也会对模式进行预处理来支持在文本中的快速查找。二、测阅读全文

posted @ 2022-01-04 08:54 无风听海阅读(751) 评论(1) 推荐(2) 编辑

公告

欢迎关注本人微信公众帐号

昵称：无风听海
园龄： 15年11个月
粉丝： 110
关注： 6

+加关注

2025年3月

日

一

二

三

四

五

六

随笔分类 (216)

随笔档案 (213)

文章档案 (1)

2011年5月(1)

01 2022 档案

公告

搜索

常用链接

最新随笔

我的标签

积分与排名

随笔分类 (216)

随笔档案 (213)

文章档案 (1)

相册 (10)

阅读排行榜

评论排行榜

推荐排行榜

最新评论