用urllib进行一次最简单的爬虫操作

爬虫工具作为获取线上数据的重要途经，可以快速获取网页的相关信息，这次使用python自带的urllib库中的request，进行一次网络爬取，首先引用urllib库

import urllib.request

接下来调用其中的函数urlopen我们就可以对一个网页进行访问，这里用百度作为例子

response=urllib.request.urlopen('https://www.baidu.com')
print(response.read().decode('utf-8'))

urlopen得到的是网页流，要生成可以阅读的代码还需要对其进行解码，适用read()和decode()函数配置解码为utf-8的网页源码，用print我们可以看到解码后的网页源码是html格式的代码，输出就不显示了。

注意解码后的结果是string类型，了解html框架的话可以选择直接对字符串操作，也可以用一些第三方库例如lxml，beautiful soup帮助分析网页。

posted @ 2019-07-22 20:31 btc 阅读(181) 评论(0) 编辑收藏举报

刷新页面返回顶部

btc