随笔分类 - 搜索
lucene,solr,nutch
摘要:在多个GPU上运行Faiss以及性能测试 一、Faiss的基本使用 1.1在CPU上运行 Faiss的所有算法都是围绕index展开的。不管运行搜索还是聚类,首先都要建立一个index。 import faiss # make faiss available index = faiss.IndexF
阅读全文
摘要:https://www.leiphone.com/news/201703/84gDbSOgJcxiC3DW.html 本月初雷锋网报道,Facebook 开源了 AI 相似性搜索工具 Faiss。而在一个月之后的今天,Facebook 发布了对 Faiss 的官方原理介绍。 它是一个能使开发者快速搜
阅读全文
摘要:http://blog.csdn.net/awj3584/article/details/16963525Solr调研总结开发类型全文检索相关开发Solr版本4.2文件内容本文介绍solr的功能使用及相关注意事项;主要包括以下内容:环境搭建及调试;两个核心配置文件介绍;维护索引;查询索引,和在查询中...
阅读全文
摘要:An Implementation of Double-Array Trie双数组Trie的一种实现原文:http://linux.thai.net/~thep/datrie/datrie.html引文:http://quweiprotoss.blog.163.com/blog/static/408...
阅读全文
摘要:http://www.hankcs.com/program/java/tire-tree-participle.html最近在看Ansj中文分词的源码,以前没有涉足过这个领域,所以需要做一些笔记。Trie树首先是Ansj分词最基本的数据结构——Trie树。Trie树也称字典树,能在常数时间O(len...
阅读全文
摘要:http://www.hankcs.com/program/java/%E5%8F%8C%E6%95%B0%E7%BB%84trie%E6%A0%91doublearraytriejava%E5%AE%9E%E7%8E%B0.html双数组Trie树(DoubleArrayTrie)是一种空间复杂度...
阅读全文
摘要:http://ansjsun.iteye.com/blog/702255 Trie树是搜索树的一种,它在本质上是一个确定的有限状态自动机,每个结点代表一个状态,根据输入变量的不同,进行状态转移。 为了减少Trie树结构的空间浪费,同时保证Trie[/size]树查询的效率,有研究者提出了用三个线性数...
阅读全文
摘要:http://www.xuebuyuan.com/1991441.html一、TRIE树简介(以下简称T树)TRIE树用于确定词条的快速检索,对于给定的一个字符串a1,a2,a3,…an,则采用TRIE树搜索经过最多n次匹配即可完成一次查找,而与词库中词条的数目无关。它的缺点是空间空闲率高。二、Do...
阅读全文
摘要:http://www.cnblogs.com/guozk/p/3498844.htmlSolrCloud阶段总结开发类型全文检索相关开发Solr版本4.2文件内容本文介绍SolrCloud的功能使用及相关注意事项在代码文本框中如有显示不全的,请在文本框中按Ctrl+A再复制.版本作者/修改人日期V1...
阅读全文
摘要:http://www.cnblogs.com/guozk/p/3498831.htmlSolr调研总结开发类型全文检索相关开发Solr版本4.2文件内容本文介绍solr的功能使用及相关注意事项;主要包括以下内容:环境搭建及调试、两个核心配置文件介绍、中文分词器配置、维护索引、查询索引,高亮显示、拼写...
阅读全文
摘要:http://blog.csdn.net/bruce128/article/details/17796705 Solr4.6有从数据库导数据的功能。导入步骤如下: 1.将下载下来的solr4.6的dist文件夹下的solr-dataimporthandler-4.6.0.jar和solr-data...
阅读全文
摘要:网络爬虫-url索引http://www.cnblogs.com/yuandong/archive/2008/08/28/Web_Spider_Url_Index.htmlurl索引的作用是判断一个url是否被抓取过,采用的算法主要是MD5数字签名。假设一共要抓取的url不超过1亿条,用一个二进制的位表示一个url是否被抓取过,则至少需要1亿个位,我们管每一个位叫一个“槽”。考虑到MD5的算法是可能出现冲突(即不同的url算出来的MD5可能相同,这种概率很小),槽越少,冲突越明显,所以槽越多越好。但另一方面,还要考虑到占用内存的大小,因为在抓取的过程中,为了保证效率,所有的槽都需要载入内存。目
阅读全文
摘要:1.memcached server端下载:memcached.exe安装:以管理员运行cmd,执行:memcached.exe -d install运行:memcached.exe -d start2.memcached客户端,支持多种语言。python:pylibmc 和 python-memcached。java: xMemcached安装python-memcached:1)下载并安装:setuptools for win32下载地址:http://pypi.python.org/pypi/setuptools 选择:setuptools-0.6c11.win32-py2.7.exe版
阅读全文
摘要:一.服务器部署1.solr自带jetty服务器上部署cd到solr-4.5.0\example目录下,运行java -jarstart.jar即可运行jetty服务器。访问http://localhost:8983/solr2.修改jetty服务器配置如果你的端口冲突了,你可以到解压的solr示例包的example/etc的jetty.xml中,例如修改端口port信息。 log4j.configuration etc/log4j.properties 50000 ...
阅读全文
摘要:1.多台机器主从备份机制2.数据库固化备份机制3.多级缓存提速机制
阅读全文