python爬虫入门

1、URL的含义:

URL,即同意资源定位符,也就是我们常说的网址。URL的格式包含三个部分:1)第一部分是协议(或者称为服务方式);2)第二部分是存有该资源的之际IP地址(有时也包括端口);3)第三部分是主机资源的具体地址,如目录和文件名等。

爬虫爬取数据时必须有一个目标的URL,因此,它是爬虫获取数据的基本依据。

2、urllib库的基本用法

(1)首先试着爬一个网页下来

import urllib2
response=urllib2.urlopen("http://www.baidu.com")
print response.read()

posted on 2017-11-21 14:38  swrong  阅读(110)  评论(0编辑  收藏  举报

导航