随笔分类 -  全文搜索引擎

关于TF-IDF的解释
摘要:TF:term frequency ,词频 。指的是 term 出现的评率。词频和 2 个因数有关,在一个文档中出现这个词条次数越多,词频越高,文档总词条总数越多这个值被稀释。 所以 一般 TF = 词条在文档出现的次数 / 文档总词数。 IDF:倒排索引的频率。 log ( docment 数量/ 阅读全文

posted @ 2018-10-30 14:59 zhangyukun 阅读(332) 评论(0) 推荐(0) 编辑

ik_max_word ik_smart 区别 和 单字 查询 不到问题
摘要:ik_smart:分词的时候只分一次,句子里面的每个字只会出现一次。 比如:中华人民共和国国歌 入上图,分成:中华人民共和国 国歌 2 部分。每个字都自出现了一次。(我指的每一个位置 的子。 2个国 位置不同,是2 个字) ik_max_word:句子的字可以反复出现。 只要在词库里面出现过的 就拆 阅读全文

posted @ 2018-10-11 15:48 zhangyukun 阅读(1808) 评论(1) 推荐(0) 编辑

es高级部分
摘要:1 关于机器 配置。 内存:上亿的数据一般需要64G内存的服务器。劲量不要使用小于32G 内存的服务器。 cpu:es 对cpu 要求依赖不如内存。一般要求2-8 核就可以了。 磁盘:es 对磁盘依赖严重。Lucene 底层 是基于磁盘存储。所以 劲量使用ssd。并且 io 模式 不要设置为 cfq 阅读全文

posted @ 2018-09-06 00:16 zhangyukun 阅读(520) 评论(0) 推荐(0) 编辑

es中级部分知识点总结
摘要:搜索开始 1 es 5.2 以后 type:text 的字段 或默认建立 一个最长 256 个字符的不分词的 fields fields:{“type”:“keyword”,"ignore_above":256} 例子: 结果: 2 term query 就是不分词。直接匹配。但是只是 查询不分词, 阅读全文

posted @ 2018-08-26 20:36 zhangyukun 阅读(1103) 评论(1) 推荐(0) 编辑

elasticsearch 基础 语法总结
摘要:1. es 使用 restful 风格的 api 备注: es 的 api 格式 基本是这个样 请求方式 /索引名/_操作类型/id?参数 ,有些时候 索引名字 和 id 不是必须得 2. 查询 所有索引 get /_cat/indices 3. 查看节点健康 get /_cat/health?v 阅读全文

posted @ 2018-08-13 22:09 zhangyukun 阅读(23053) 评论(0) 推荐(2) 编辑

kibana 启动 关闭 和进程查找
摘要:启动kibana : nohup ./kibana & 查看启动日志 : tail -f nohup kibana 使用 ps -ef|grep kibana 是查不到进程的,主要原因大概是因为 kibana 是node 写的。所以kibana 运行的时候是运行在node 里面。 所以 可以使用 p 阅读全文

posted @ 2018-08-13 21:20 zhangyukun 阅读(24546) 评论(0) 推荐(2) 编辑

导航

< 2025年3月 >
23 24 25 26 27 28 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31 1 2 3 4 5
点击右上角即可分享
微信分享提示