摘要: 简要的介绍搜索引擎的原理,然后在本机实现了一个较为简单的搜索引擎。主要的任务就是设计一个爬虫,然后整理和存储爬取的网页内容,分析链接,当有用户查询的时候根据按照一定的原则返回相应网址。因为任务就分为以下几个部分,抓取网页,分析网页,存储网页和相关内容,根据查询返回结果。 网页抓取的任务,需要使用到python的urllib2库,用于获取网页,需要注意的是在抓取的时候可能会因为网络... 阅读全文
posted @ 2012-03-23 21:40 追风人 阅读(251) 评论(0) 推荐(0) 编辑