搜索引擎主要有三个工作流程:爬行抓取、预处理、服务输出。
一、爬行抓取
通过内外链做好入口。
二、预处理
这个过程最为重要,主要做的事件如下:
1. 消除噪声
2. 去除停用词
3. 分词技术
4. 链接关系计算
5. 正向索引
6. 倒排索引
三、服务输出
有了倒排索引就可以直接输出了。