python搜索引擎
摘要:
用python如何实现一个站内搜索引擎?
先想想搜索引擎的工作流程:
1、网页搜集。用深度或者广度优先的方法搜索某个网站,用文件的形式保存下所有的网页,对于网页的维护采用定期搜集和增量搜集的方式。
2、建立索引库。首先,过滤掉重复的网页,虽然他们有不同的URL;然后,提取出网页的正文;最后,对正文切词,建立索引。索引总要有个顺序,利用pagerank算法给每个网页加个权值。
3、提供搜索服务。首先,切分查询词;然后,对索引结果排序,结合原来的权值和用户的查询历史等作为新的索引顺序;最后,还要显示文档摘要。 阅读全文
posted @ 2012-09-20 17:07 favourmeng 阅读(13145) 评论(2) 推荐(0) 编辑