摘要: 学习了一段时间的solr了,用自己的方式总结下目前学到的内容,这是个系列文章,这里面的有些说法可能不准确,也可能有问题 欢迎大家指正。 一、搜索引擎目的 搜索引擎在我们的生活中,已经无处不在,除了我们常用的baidu、Google等,还有一些电商的搜索 比如亚马逊搜书等。除了网页搜索外,企业内部可能 阅读全文
posted @ 2016-04-06 23:26 XGogo 阅读(1403) 评论(0) 推荐(1) 编辑
摘要: Iperf是一个网络性能测试工具。Iperf可以测试TCP和UDP带宽质量。Iperf可以测量最大TCP带宽,具有多种参数和UDP特性。Iperf可以报告带宽,延迟抖动和数据包丢失。利用Iperf这一特性,可以用来测试一些网络设备如路由器,防火墙,交换机等的性能。 Iperf有两种版本,window 阅读全文
posted @ 2016-04-06 18:02 XGogo 阅读(773) 评论(0) 推荐(0) 编辑
摘要: 一、 设计理念 1. 空间换时间 1) 多级缓存,静态化 2) 索引 2. 并行与分布式计算 1) 任务切分、分而治之(MR) 2) 多进程、多线程并行执行(MPP) 3. 多维度的可用 1) 负载均衡、容灾、备份 2) 读写分离 3) 依赖关系 4) 监控 4. 伸缩 1) 拆分 2) 无状态 5 阅读全文
posted @ 2016-04-06 13:58 XGogo 阅读(416) 评论(0) 推荐(0) 编辑
摘要: Bloom Filter是由Bloom在1970年提出的一种多哈希函数映射的快速查找算法。通常应用在一些需要快速判断某个元素是否属于集合,但是并不严格要求100%正确的场合。 一. 实例 为了说明Bloom Filter存在的重要意义,举一个实例: 假设要你写一个网络蜘蛛(web crawler)。 阅读全文
posted @ 2016-04-06 11:53 XGogo 阅读(89) 评论(0) 推荐(0) 编辑
摘要: PS:下面是性能测试的主要概念和计算公式,记录下: 一.系统吞度量要素: 一个系统的吞度量(承压能力)与request对CPU的消耗、外部接口、IO等等紧密关联。单个reqeust 对CPU消耗越高,外部系统接口、IO影响速度越慢,系统吞吐能力越低,反之越高。 系统吞吐量几个重要参数:QPS(TPS 阅读全文
posted @ 2016-04-06 11:22 XGogo 阅读(154) 评论(0) 推荐(0) 编辑
摘要: 1. 准备阶段 1.1. 基本概念 solr集群的概念可以参考 uc.cn 团队的一篇文章,写得很全面: http://tech.uc.cn/?p=2387 1.2. rebalance概念 Rebalance有两个概念: l 历史数据查询、更新,在solrcloud中要做到查询请求balance只 阅读全文
posted @ 2016-04-06 11:18 XGogo 阅读(567) 评论(0) 推荐(0) 编辑
该文被密码保护。 阅读全文
posted @ 2016-04-06 11:09 XGogo 阅读(526) 评论(0) 推荐(0) 编辑
摘要: 笔记三个小问题: (1):使用solrj添加索引时,主要有两种方法, 第一种是直接使用solrinputDoucument的方法添加。 第二种是面向对象的形式将一份索引映射成一个Bean对象封装。 当使用第二种时,需要注意一个问题,如果一个对象里,有基本类型int,float,long,double 阅读全文
posted @ 2016-04-06 10:04 XGogo 阅读(169) 评论(0) 推荐(0) 编辑
摘要: 记录两个问题: (1)在配置分词的场景中,如何让精确查询的排在前面,模糊查询的排在后面,这个需求算是比较常见的,但如果你是在数据库中,那么就非常容易了,where xxx=xxx 出来就是精确匹配的,但是在Lucene或者Solr中,反到有点诡异了,其实也不算问题,如果熟悉的Lucene的评分机制, 阅读全文
posted @ 2016-04-06 10:01 XGogo 阅读(1290) 评论(0) 推荐(0) 编辑
摘要: 使用Spark构建索引非常简单,因为spark提供了更高级的抽象rdd分布式弹性数据集,相比以前的使用Hadoop的MapReduce来构建大规模索引,Spark具有更灵活的api操作,性能更高,语法更简洁等一系列优点。 先看下,整体的拓扑图: 然后,再来看下,使用scala写的spark程序: J 阅读全文
posted @ 2016-04-06 09:51 XGogo 阅读(351) 评论(0) 推荐(0) 编辑