smartroc

2012年2月24日

开源网络爬虫程序(spider)一览

摘要: 第一个spider程序由MIT的Matthew K Gray操刀该程序的目的是为了统计互联网中主机的数目>Spier定义(关于Spider的定义,有广义和狭义两种).狭义:利用标准的http协议根据超链和web文档检索的方法遍历万维网信息空间的软件程序. 广义:所有能利用http协议检索web文档的软件都称之为spider. 其中Protocol Gives Sites Way To Keep Out The ′Bots Jeremy Carl, Web Week, Volume 1, Issue 7, November 1995 是和spider息息相关的协议,大家有兴趣参考robot 阅读全文

posted @ 2012-02-24 20:37 smartroc 阅读(766) 评论(0) 推荐(0) 编辑

导航