架构深渊

慢慢走进程序的深渊……关注领域驱动设计、测试驱动开发、设计模式、企业应用架构模式……积累技术细节,以设计架构为宗。
  博客园  :: 首页  :: 新随笔  :: 联系 :: 订阅 订阅  :: 管理

第四章 4.1 准备工作 Prepare for Indexing

Posted on 2009-01-02 00:23  chen eric  阅读(185)  评论(0编辑  收藏  举报

第四章 4.1 准备工作 Prepare for Indexing










网页的内容经过爬虫爬取之后,按照不同的类型进行分析,成为相对“清洁”的文本之后就可以开始建立全文索引了。分析的过程包括大小写转换,过滤标点符号、没有意义的虚词和网页的格式代码。可以把分析看成是一个过滤的过程。