用urllib进行一次最简单的爬虫操作
爬虫工具作为获取线上数据的重要途经,可以快速获取网页的相关信息,这次使用python自带的urllib库中的request,进行一次网络爬取,首先引用urllib库
import urllib.request
接下来调用其中的函数urlopen我们就可以对一个网页进行访问,这里用百度作为例子
response=urllib.request.urlopen('https://www.baidu.com') print(response.read().decode('utf-8'))
urlopen得到的是网页流,要生成可以阅读的代码还需要对其进行解码,适用read()和decode()函数配置解码为utf-8的网页源码,用print我们可以看到解码后的网页源码是html格式的代码,输出就不显示了。
注意解码后的结果是string类型,了解html框架的话可以选择直接对字符串操作,也可以用一些第三方库例如lxml,beautiful soup帮助分析网页。