网络爬虫及分布式系统
摘要:
一.抓取网页 1.URL Web 上每种可用的资源, 如HTML 文档、 图像、 视频片段、 程序等都由一个通用资源标志符(Universal Resource Identifier,URI)进行定位。 URI 通常由三部分组成:①访问资源的命名机制;②存放资源的主机名;③资源自身的名称。 URL 是 URI 的一个子集。 它是 Uniform Resource Locator 的缩写, 译为 “统一资源定位符”。通俗地说,URL 是 Internet 上描述信息资源的字符串,主要用在各种 WWW 客户程序和服务器程序上, 特别是著名的 Mosaic。 采用 URL 可以用一种统一的... 阅读全文
posted @ 2013-12-16 21:10 依蓝jslee 阅读(2164) 评论(0) 推荐(2) 编辑