会员
周边
众包
新闻
博问
闪存
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
架构深渊
慢慢走进程序的深渊……关注领域驱动设计、测试驱动开发、设计模式、企业应用架构模式……积累技术细节,以设计架构为宗。
博客园
::
首页
::
新随笔
::
联系
::
订阅
::
管理
公告
第四章 4.1 准备工作 Prepare for Indexing
Posted on
2009-01-02 00:23
chen eric
阅读(
185
) 评论(
0
)
编辑
收藏
举报
第四章 4.1 准备工作 Prepare for Indexing
网页的内容经过爬虫爬取之后,按照不同的类型进行分析,成为相对“清洁”的文本之后就可以开始建立全文索引了。分析的过程包括大小写转换,过滤标点符号、没有意义的虚词和网页的格式代码。可以把分析看成是一个过滤的过程。
会员力量,点亮园子希望
刷新页面
返回顶部
Powered by:
博客园
Copyright © 2024 chen eric
Powered by .NET 8.0 on Kubernetes