2012年9月20日

python搜索引擎

摘要: 用python如何实现一个站内搜索引擎?   先想想搜索引擎的工作流程: 1、网页搜集。用深度或者广度优先的方法搜索某个网站,用文件的形式保存下所有的网页,对于网页的维护采用定期搜集和增量搜集的方式。 2、建立索引库。首先,过滤掉重复的网页,虽然他们有不同的URL;然后,提取出网页的正文;最后,对正文切词,建立索引。索引总要有个顺序,利用pagerank算法给每个网页加个权值。 3、提供搜索服务。首先,切分查询词;然后,对索引结果排序,结合原来的权值和用户的查询历史等作为新的索引顺序;最后,还要显示文档摘要。 阅读全文

posted @ 2012-09-20 17:07 favourmeng 阅读(13145) 评论(2) 推荐(0) 编辑

导航