用Python抓取网页并解析

软件版本

python:2.7.12

网页抓取库

网页抓取库为requests,

安装很简单，直接使用pip

pip install requests

网页解析库

网页解析库使用beautifulsoup4,其支持多种html解析器，如html5lib,lxml，需要一并安装，推荐使用lxml网页解析器。

安装过程如下：

pip install beautifulsoup4
pip install lxml
pip install html5lib

使用方法：

soup = BeautifulSoup(html_content, "lxml", from_encoding="utf-8")

posted on 2017-11-19 18:43 上品物语阅读(897) 评论(0) 收藏举报