MOSS 2007中Incremental crawl的间隔时间是不是越短越好呢?

不是的. 最好给予Incremental crawl以足够的时间来结束每一次的incremental crawl.

 

Incremental Crawl也叫增量爬网, 如果增量爬网的频率越高, 新增的或新修改的内容就会能越早地在搜索功能中查找到. 可是, 增量爬网的时间却并不是越短越好的.

 

比如说配置增量爬网每5分钟运行一次, 而平均成功结束一次incremental crawl需要15分钟. 并且如果服务器场内有多台Query Server的话, 会在数据库端有dead lock的情况发生.

 

为什么这样会有dead lock呢?

因为SharePoint 有一个存储过程, 叫做“proc_MSS_PropagationQueryServerReportTaskReady”. Query Server们会调用它, 它专门负责告诉Index Server上一次的index propagation是否成功了. 在该存储过程中会有修改数据库表的动作, 所以就会有锁的动作发生. 当爬网非常频繁, 而索引服务器有比较多, 就会出现死锁.

 

注意, 这里的存储过程的设计是一种循环的调用, 一旦发现锁了, 那么就睡一小会儿, 待会儿再来尝试. 直到成功为止. 问题就出在旧的还没来得及结束, 更新一次的增量爬网又结束了, 又要来一次新的propergation. 于是问题不断的堆积, 最终导致爬网出现严重的问题.

 

极致的情况是, 表面上看上去是一次增量爬网, 但是实际上内部进行的是完全爬网. SharePoint会在死锁过多的情况下放弃增量爬网, 开启完全爬网. 所以, 增量爬网的时间间隔过短的另一个表象就是偶尔的某一次增量爬网需要的时间远远超过了平时的增量爬网的时间. 因为它在进行完全爬网.

posted on   中道学友  阅读(303)  评论(0编辑  收藏  举报

编辑推荐:
· AI与.NET技术实操系列:向量存储与相似性搜索在 .NET 中的实现
· 基于Microsoft.Extensions.AI核心库实现RAG应用
· Linux系列:如何用heaptrack跟踪.NET程序的非托管内存泄露
· 开发者必知的日志记录最佳实践
· SQL Server 2025 AI相关能力初探
阅读排行:
· 震惊!C++程序真的从main开始吗?99%的程序员都答错了
· 【硬核科普】Trae如何「偷看」你的代码?零基础破解AI编程运行原理
· 单元测试从入门到精通
· 上周热点回顾(3.3-3.9)
· winform 绘制太阳,地球,月球 运作规律

导航

< 2010年10月 >
26 27 28 29 30 1 2
3 4 5 6 7 8 9
10 11 12 13 14 15 16
17 18 19 20 21 22 23
24 25 26 27 28 29 30
31 1 2 3 4 5 6

技术追求准确,态度积极向上

点击右上角即可分享
微信分享提示