摘要: 文章系本人原创,转载请保持完整性并注明出自《四火的唠叨》最近在写一个程序,去爬热门事件和热门关键词网站上的数据。在这里介绍一下网络爬虫的种种。基本组件网络爬虫也叫做网络蜘蛛,是一种互联网机器人,把需要的网页撷取下来,组织成适当格式存储。它是搜索引擎的重要组成部分,虽然从技术实现上来说,它的难度往往要小于对于得到的网页信息的处理。上面这张图来自维基百科,scheduler调度多个多线程的下载器下载网页,并把信息和元数据存储起来。而通过解析下载网页的数据,找到链接,又把链接加入到工作队列中去准备下载。这看起来是一个迭代的过程。网络爬虫相关的几项重要策略:选择策略:哪些网页是需要被抓取的;重访问策略 阅读全文
posted @ 2013-05-27 15:32 Mose 阅读(392) 评论(0) 推荐(0) 编辑