2012 年 10月 25 日随笔档案 - 76er

2012年10月25日

摘要：我们大致把爬虫分为两类：一类是用于搜索引擎的搜索爬虫，抓取目标是整个互联网；一类则是各种定向爬虫，抓取目标是所有网站中的一个特定子集，甚至就是某一个网站。聚焦爬虫的工作流程较为复杂，需要根据一定的网页分析算法过滤与主题无关的链接，保留有用的链接并将其放入等待抓取的URL队列。然后，它将根据一定的搜索策略从队列中选择下一步要抓取的网页URL，并重复上述过程，直到达到系统的某一条件时停止。另外，所有被爬虫抓取的网页将会被系统存贮，进行一定的分析、过滤，并建立索引，以便之后的查询和检索;对于聚焦爬虫来说，这一过程所得到的分析结果还可能对以后的抓取过程给出反馈和指导。相对于通用网络爬虫，聚焦爬虫还. 阅读全文

posted @ 2012-10-25 20:21 76er 阅读(5028) 评论(39) 推荐(0) 编辑

爬虫编写

摘要：爬虫技术：基于目标数据模式的爬虫针对的是网页上的数据，所抓取的数据一般要符合一定的模式，或者可以转化或映射为目标数据模式。爬虫策略：网页的抓取策略可以分为深度优先、广度优先和最佳优先三种。深度优先在很多情况下会导致爬虫的陷入问题，目前常见的是广度优先和最佳优先方法。在编写爬虫的时候可以考虑使用广度优先和最佳优先的方法。广度优先搜索策略是指在抓取过程中，在完成当前层次的搜索后，才进行下一层次的搜索。该算法的设计和实现相对简单。在目前为覆盖尽可能多的网页，一般使用广度优先搜索方法。也有很多研究将广度优先搜索策略应用于聚焦爬虫中。其基本思想是认为与初始URL在一定链接距离内的网页具有主题相关. 阅读全文

posted @ 2012-10-25 19:52 76er 阅读(2195) 评论(11) 推荐(0) 编辑

sitemap资料

摘要：功能Sitemap 可方便管理员通知搜索引擎他们网站上有哪些可供抓取的网页。最简单的 Sitepmap 形式，就是 XML 文件，在其中列出网站中的网址以及关于每个网址的其他元数据（上次更新的时间、更改的频率以及相对于网站上其他网址的重要程度为何等），以便搜索引擎可以更加智能地抓取网站。介绍网络抓取工具通常会通过网站内部和其他网站上的链接查找网页。Sitemap 会提供此数据以便允许支持 Sitemap 的抓取工具抓取 Sitemap 提供的所有网址，并了解使用相关元数据的网址。使用 Sitemap 协议并不能保证网页会包含在搜索引擎中，但可向网络抓取工具提供一些提示以便它们更有效地抓取网站阅读全文

posted @ 2012-10-25 18:10 76er 阅读(550) 评论(17) 推荐(0) 编辑

爬虫的定向爬取与垂直搜索

摘要：定向爬虫是网络爬虫的一种。　定向爬虫定向爬虫可以精准的获取目标站点信息。　定向爬虫获取信息，配上手工或者自动的模版进行信息匹配，将信息进行格式化分析存储。优势：基于模版的信息提取技术，能提供更加精准的信息。比如价格，房屋面积，时间，职位，公司名等等。　劣势：目标网站难以大面积覆盖，因为基于模版匹配的信息提取技术，需要人工的参与配置模版，欲要大面积覆盖各个目标网站，需要大量的人力成本，同样维护模板也需要很大的人力成本。也就是说定向爬取就是我们要针对不同的网页构建不同的网页模板，比如针对BBS就要构建与BBS相同的网页模板，让爬虫定向的搜集某个网页块内的信息。对于问答网站就更是如此... 阅读全文

posted @ 2012-10-25 13:19 76er 阅读(1402) 评论(16) 推荐(0) 编辑

76er

公告