Fast Search:爬网测试 -- 金大昊(jindahao)

今天对fastsearch爬业务公开数据做了详细的记录,由于sharepoint默认支持100万条爬网数据量,所以只爬了100万条(如果需要爬更多的数据可设置)。以下是记录的爬网数据:

用时(hh:mm)爬网数量(条)硬盘剩余(G)内存(G) cup占用(%)

--------------------------------------------------------

00:00       88600      79       8.1        1
00:44       88601      79       8.2        1
00:55      107300      76.5     9.4       99
00:58      110900      74.8     9.4       99
01:01      117000      74.1     9.4      100
01:07      133100      75.7     9.4      100
01:16      157600      75.4     9.4      100
01:21      171600      75.1     9.4      100
01:43      233400      72.4     9.4      100
03:03      460300      67.1     9.4      100
03:36      550300      68.8     9.4      100
04:20      671300      64.3     9.2      100
05:10      805200      59.7     9.2      100
05:28      854100      67.0     8.7      100
06:57     1088602      63.4     8.6        1 

单看上面的数据可以看出每小时所爬数据量为20万,速度不快,不如solr,我认为这个不好比较,原因如下:

  1. 我安装fast用的是虚机,solr用实体机
  2. fast是爬网,solr是推送数据,如果需要爬网需要开发

只从表面对比fast的好处如下:

  1. sharepoint可边爬网边查询,solr需要开发
  2. fast搜索速度快,具体指标如下:

关键字   搜索结果数据量(条)   第一次搜索用时(秒)   第二次搜索用时(秒)

---------------------------------------------------------------------------------

 ‘1’            1,088,522               0.1400                   0.0150

   ‘订单’      1,001,962               0.1370                   0.0140

这是虚机的测试结果,如果采用实体机我相信会更快。

还可以看出在第二次搜索时明显又快了,这很容易解释因为采用了缓存。

当然solr也有好处就是开源,而fast是需要付出3万多美元的或更多。

也发现了个问题,就是fast在爬网的时候很耗cpu,使得网站访问速度变慢,这也就可以解释为什么官网要求sharepoint和fast不要安装在一起的原因了。

 

 

作者:金大昊

 

努力过就不后悔

posted @ 2012-04-11 20:04  jindahao  阅读(462)  评论(0编辑  收藏  举报