摘要: [TOC] Apache Lucene评分 计算文档的评分属性时,考虑如下因素: 文档加权:对文档建立索引时,对文档的加权值 字段加权:查询和索引时,对字段的加权 协调:基于文档条数的协调因子。对包含更多查询词条的文档,它提供更大的值 逆文档频率:基于词条的因子,它告诉评分公式,给定词条出现的频率有 阅读全文
posted @ 2018-10-15 23:54 高空降落 阅读(1996) 评论(0) 推荐(0) 编辑
摘要: [TOC] 基本知识 查询结果返回设置:版本值、得分限制、定制返回字段 定制字段的返回,从性能角度考虑,不如直接返回_source 搜索类型 通过search_type设置,请求类型是: 1. query_then_fetch:默认设置。第一步在所有分片上执行查询得到对文档进行排序和分级所需信息,然 阅读全文
posted @ 2018-09-24 23:26 高空降落 阅读(279) 评论(0) 推荐(0) 编辑
摘要: 绪论 信息论解答了通信理论中的两个基本问题:临界数据压缩(答案:熵H)和临界通信传输速率的值(答案:信道容量C) 熵 如果随机变量X的概率密度函数为p(x),那么X的熵定义为 \(H(X)=- \sum p(x)log_2 p(x)\) 使用以2为底的对数函数,熵的量纲为比特。熵可以看作是随机变量的 阅读全文
posted @ 2018-09-09 16:10 高空降落 阅读(500) 评论(0) 推荐(0) 编辑
摘要: 统计决策的基本概念 决策这一概念属于现代管理学的范畴,它是管理的核心问题。在决策过程中,采用统计方法,利用有关的统计信息和相应的统计分析方法在不确定情况下进行决策,就是统计决策。 广义统计决策:确定型决策,风险型决策和非确定型决策 狭义统计决策:风险型决策和非确定型决策 损益矩阵表 |状态 概率|s 阅读全文
posted @ 2018-09-06 23:29 高空降落 阅读(652) 评论(0) 推荐(0) 编辑
摘要: 回归分析 相关分析是分析变量间的相关程度,具有相关关系的变量可以通过建立模型来分析它们之间的相互关系,这个过程称为回归分析。 相关程度:完全相关、不完全相关和不相关。完全相关的关系可以找到一个函数表达。 相关方向:正相关和负相关 相关形式:线性相关和非线性相关 回归分析 回归分析是通过建立回归模型来 阅读全文
posted @ 2018-09-04 00:49 高空降落 阅读(221) 评论(0) 推荐(0) 编辑
摘要: 索引 分片和副本 一个索引由多个分片组成,每个分片包含文档集的一部分。副本主要是为了增强容错性,提高吞吐量。 副本的数量可以随时的调整,但是分片的数量设定好后,不能修改 映射配置 类型确定机制 数字类型和日期类型可以通过设置自动检测,这一般是默认开启的。 dynamics_data_formats: 阅读全文
posted @ 2018-09-01 16:55 高空降落 阅读(278) 评论(0) 推荐(0) 编辑
只有注册用户登录后才能阅读该文。 阅读全文
posted @ 2018-04-24 00:13 高空降落 阅读(4) 评论(0) 推荐(0) 编辑
摘要: Lucene基本概念 1. 文档(document):索引与搜索的主要载体,它包含一个或多个字段,存放将要写入索引的或将从索引搜索出来的数据。 2. 字段(field):文档的一个片段,它包含字段的名称和字段的内容两个部分。 3. 词项(term):搜索时的一个单位,代表了文本中的一个词。 4. 词 阅读全文
posted @ 2018-04-18 23:09 高空降落 阅读(143) 评论(0) 推荐(0) 编辑
摘要: 现在计算机处理涉及到大量的字符串操作,字符串的匹配是使用频率最高的字符串操作之一,大学数据结构与算法中字符串一章,也专门介绍了字符串匹配。 字符串的单模式匹配中最基础的算法是朴素的模式串匹配算法,比这更高级的是KMP算法。 朴素的字符串匹配算法 算法中i,j分别指示主串text和模式串pattern 阅读全文
posted @ 2017-12-09 18:04 高空降落 阅读(319) 评论(0) 推荐(0) 编辑
摘要: 背景 Ansj 是一个开源的 Java 中文分词工具,基于中科院的 ICTCLAS 中文分词算法,比其他常用的开源分词工具(如mmseg4j)的分词准确率更高。工具支持词性标注,所以就可以依据词性进行分词结果的过滤。 词性介绍 1. 名词 (1个一类,7个二类,5个三类) 名词分为以下子类: n 名 阅读全文
posted @ 2017-12-09 17:44 高空降落 阅读(3320) 评论(0) 推荐(0) 编辑