摘要:
看了好几次结巴的算法, 总也记不住, 还是得自己写一遍才能真正明白. 其实也不难, 就是动态规划算法, 先把所有的分词路径都找出来 ,然后分词的路径就是概率最大的路径. 每个路径的概率=该路径所有词的概率乘积, 也就是log之和; 每个词的概率取log=log(freq/total), total是 阅读全文
摘要:
tmux命令参数 tmux new s name //创建一个新会话 tmux ls //列出所有会话 tmux a t name //返回某一个会话 tmux内部命令(ctrl+b之后按) s //会话切换 d //detach % //垂直分屏 " //水平分屏 c //创建窗口 数字 //切换 阅读全文
摘要:
背景 在公司工作的时候经常需要在很多服务器之间切换,而公司的服务器上一般都没emacs,因此总结一下快速安装emacs的方法。 最简单的是直接使用yum安装,但是有两个问题,一个是有的生产服务器直接没有联网,另一个是有的服务器上的yum源配置的不是很好,默认安装的是老版本的emacs。 安装方法 一 阅读全文
摘要:
emacs设置单例模式的本质就是使用下列参数启动: C:\emacs 24.5\bin\emacsclientw.exe no wait alternate editor="C:\emacs 24.5\bin\runemacs.exe" "%1" 如果是设置个快捷方式图标什么的还好,可以直接加参数, 阅读全文
摘要:
原文链接:https://www.elastic.co/blog/found similarity in elasticsearch 原文 By Konrad Beiske 翻译 By 高家宝 译者按 该文虽然名为 ,实际上多数篇幅讲的都是信息检索邻域的通用相似度模型。其中涉及到具体实现的部分,El 阅读全文
摘要:
原文链接: https://www.elastic.co/blog/found bm vs lucene default similarity 原文 By Konrad Beiske 翻译 By 高家宝 这篇文章是之前讨论相似度模型(vsm和bm25)的 "文章" 的后续,在这篇文章中我们将使用维基 阅读全文
摘要:
综述 在进行搜索的时候,文档中的同一个词往往有多种表达方法,这种现象叫做同义词。比如用户输入"充电宝",而文档里有"移动电源",这时如果搜索系统没有做查询优化的话用户是不能找到相关文档的。由此我们引出查询优化的概念。 查询优化方法大体可以分为两类: 1. 全局方法 :在不考虑原始查询初始返回文档的情 阅读全文
摘要:
测试数据集 1. 一个文档集 2. 一组用于测试的信息需求集合,信息需求可以表示为查询 3. 一组相关性判定结果,对应每个查询 文档,通常会赋予一个二值判定结果: 相关/不相关 经验发现一般测试的查询数应 =50。 无序检索结果的评价 准确率和召回率 对于一个查询,根据其返回结果可以将整个文档集划分 阅读全文
摘要:
索引压缩的作用 词典压缩 笔者认为词典压缩算法对中文搜索来说意义不大。之所以要压缩词典,主要是因为Heaps定律指出,随着文档数目的增加,词汇表会持续增长而不会稳定到一个最大值。而中文分词与英文分词的不同在于中文分词是基于词典的,词汇主要来源于词典,因此除非有新词挖掘算法不断扩充词典,否则索引中的中 阅读全文
摘要:
注:本文主要记录这次解决内存溢出问题的过程而不是具体问题。 最近在写一个搜索引擎,使用倒排索引结构进行文档检索,保存索引的基本思想是先将倒排列表保存到内存中一个有序Map里(TreeMap),然后当内存占用达到一定阈值的时候将内存中的倒排列表有序写入磁盘,当磁盘已经存在索引时,则将内存中的索引和磁盘 阅读全文