2010年11月8日
摘要: 多次被人问到这个问题,看来需要做一点说明,这里简单介绍一下搜索引擎的机器爬虫的制作和一些基本要注意的事项。说的简单易懂一些,网络爬虫跟你使用的〖离线阅读〗工具差不多。说离线,其实还是要跟网络联结,否则怎么抓东西下来?那么不同的地方在哪里?1】 网络爬虫高度可配置性。2】 网络爬虫可以解析抓到的网页里的链接3】 网络爬虫有简单的存储配置4】 网络爬虫拥有智能的根据网页更新分析功能5】 网络爬虫的效率相当的高那么依据特征,其实也就是要求了,如何设计爬虫呢?要注意哪些步骤呢?1】 url 的遍历和纪录这点 larbin 做得非常的好,其实对于url的遍历是很简单的,例如:cat [what you 阅读全文
posted @ 2010-11-08 11:28 dartagnan 阅读(437) 评论(0) 推荐(0) 编辑
摘要: 现在是网络的时代,所有数据都可以在互联网上得到,所以能够自动抓取Web数据的网页爬虫程序(又叫网络机器人,Web Robot)就逐渐流行了起来。开发网页爬虫的过程,需要运用各种Heuristic(摸索体验)的作法:尝试你的想法,修正预期以外的错误(错误通常相当多),一再重复进行,直到网页爬虫可行为止。所以写网页爬虫程序时,是需要一点点耐心的。一般的状况下,网页爬虫程序会先取一个网页,从此网页取出所有“后续的链接”,然后继续取这些链接的网页。网页的组织方式如果是线性的(例如:每个 网页都有“前一笔资料”与“下一笔数据”的超级链接),那么超级链接就不会重复,所以就不需要判断这些链接有无重复。但组织 阅读全文
posted @ 2010-11-08 11:27 dartagnan 阅读(1284) 评论(0) 推荐(0) 编辑
摘要: 爬虫有好处也有坏处:威胁主要是流量方面,包括爬虫的访问以及搜索引擎被使用带来的实际用户访问。对网站有好有坏,不好的地方会增加网站的访问负荷;好的地方也是增加了访问流量,如果搜索引擎收录了你的网站,你的网站的流量会增加,也就是有更多的用户访问量。你想让更多用户知道的话,就允许网络爬虫,如果需要防止的话,就需要监测网站,把一些不良网络爬虫的给堵止掉,一般是封IP。 正常情况下,在网站的目录下放一个robots.txt的文件,里面可以声明禁止爬虫来爬,做为一个有品的爬虫程序,就不去爬了,当然没品的不在此列。对于恶意爬虫,可以封掉它的ip 相当一部分爬虫真不是什么好东西:http://www.java 阅读全文
posted @ 2010-11-08 11:08 dartagnan 阅读(669) 评论(0) 推荐(0) 编辑
摘要: 网络爬虫是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成。传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。 RBSE (Eichmann,1994)是第一个发布的爬虫。它有两个基础程序。第一个是“spider”,抓取队列中的内容到一个关系数据库中,第二个程序是“mite”,是一个修改后的www的ASCII浏览器,负责从网络上下载页面。  WebCrawler(Pinkerton,1994)是第一个公开可用的 用来建立全文索引的一个子程序,他使用库www来下 阅读全文
posted @ 2010-11-08 10:38 dartagnan 阅读(615) 评论(0) 推荐(0) 编辑
摘要: 内容实在太多,记录下URL先,有空时再慢慢研究:wget: 中文详细说明(参数什么的很多很全):http://forum.ubuntu.org.cn/viewtopic.php?f=73&t=213029 这个也不错: http://os.51cto.com/art/201002/183100.htm 比如,下载整个网站以便底线阅读:http://forum.ubuntu.org.cn/viewtopic.php?f=73&t=150608&start=0 使用wget为Ubuntu更新加速:http://forum.ubuntu.org.cn/viewtopic.ph 阅读全文
posted @ 2010-11-08 10:15 dartagnan 阅读(440) 评论(0) 推荐(0) 编辑