python爬虫 (一) 爬虫基础了解,urllib
• URL的含义:
统一资源定位符,结构:
URL的格式由三部分组成:
①第一部分是协议(或称为服务方式)。
②第二部分是存有该资源的主机IP地址(有时也包括端口号)。
③第三部分是主机资源的具体地址,如目录和文件名等。
关于URL和URI的区别:https://www.zhihu.com/question/21950864
• 环境的配置
IDE的选择。
Φ urllib
import urllib.request
response=urllib.request.urlopen("http://www.baidu.com",data,8000);
print response.read()
构造Request.
import urllib.request
request = urllib.Request("http://www.baidu.com")
response = urllib.urlopen(request)
print response.read()
ΦGET和POST
上面的程序演示了最基本的网页抓取,不过,现在大多数网站都是动态网页,需要你动态地传递参数给它,它做出对应的响应。所以,在访问时,我们需要传递数据给它。最常见的情况是什么?对了,就是登录注册的时候呀