python爬虫入门
1、URL的含义:
URL,即同意资源定位符,也就是我们常说的网址。URL的格式包含三个部分:1)第一部分是协议(或者称为服务方式);2)第二部分是存有该资源的之际IP地址(有时也包括端口);3)第三部分是主机资源的具体地址,如目录和文件名等。
爬虫爬取数据时必须有一个目标的URL,因此,它是爬虫获取数据的基本依据。
2、urllib库的基本用法
(1)首先试着爬一个网页下来
import urllib2
response=urllib2.urlopen("http://www.baidu.com")
print response.read()