2017.08.11 Python网络爬虫实战之Beautiful Soup爬虫

1.与Scrapy不同的是Beautiful Soup并不是一个框架，而是一个模块；与Scrapy相比，bs4中间多了一道解析的过程（Scrapy是URL返回什么数据，程序就接受什么数据进行过滤），bs4则在接收数据和进行过滤之间多了一个解析的过程，根据解析器的不同，最终处理的数据也有所不同，加上这一步骤的优点是可以根据输入数据的不同进行针对性的解析；同一选择lxml解析器；

2.安装Beautiful Soup环境：pip install beautifulsoup4

3.Beautiful Soup除了支持python标准库中的HTML解析器外，还支持一些第三方解析器；效率更高

4.安装lxml解析器：pip install lxml

5.Beautiful Soup的查找数据的方法更加灵活方便，不但可以通过标签查找，还可以通过标签属性来查找，而且bs4还可以配合第三方的解析器，可以针对性的对网页进行解析，使得bs4威力更加强大，方便

自建一个html的示例文件scenery.html，通过对scenery.html的操作学习bs4模块：

<!DOCTYPE html>
<html lang="en">
<head>
    <meta charset="UTF-8">
    <title>泉州旅游景点</title>
    <meta name="description" content="泉州旅游景点 精简版"/>
    <meta name="author" content="chunyu" >
</head>
<body>
    <div id="content">
        <div class="title">
            <h3>泉州景点</h3>
        </div>
        <ul>
            <li>景点<a>门票价格</a></li>
        </ul>
        <ul class="content">
            <li nu="1">东湖公园<a class="price">60</a></li>
            <li nu="2">西湖公园<a class="price">60</a></li>
            <li nu="3">华侨大学<a class="price">120</a></li>
            <li nu="4">清源山<a class="price">150</a></li>
            <li nu="5">文庙<a class="price">60</a></li>
        </ul>
    </div>
</body>
</html>

6.进入文件目录执行命令：

F:\>cd Python\PythonWebScraping\PythonBeautiSoupProject\testBs4

F:\Python\PythonWebScraping\PythonBeautiSoupProject\testBs4>python

>>> from bs4 import BeautifulSoup
>>> soup=BeautifulSoup(open('scenery.html'),'lxml')
>>> soup.prettify

执行结果：

7.一个文件或者一个网页，在导入BeautifulSoup处理之前，bs4并不知道它的字符编码是什么，在导入BeautifulSoup过程中，它会自动猜测这个文件或者网页的字符编码，常用的字符编码当然很快就会猜出来，但是不常用的编码就需要BeautifulSoup提供的两个参数解决：exclude_encoding和from_encoding

（1）参数exclude_encoding的作用是排除不正确的字符编码，例如已经确定非常网页不是iso-8859-7也不是gb2312编码，就可以使用命令：

soup=BeautifulSoup(response.read(),exclude_encoding=['iso-8859-7','gb2312'])

（2）如果已经知道网页的编码是big5，也可以直接使用from_encoding参数直接确定编码：

soup=BeautifulSoup(response.read(),from_encoding=['big5'])

（3）如果不知道文件的字符编码，而bs4又解析错误时，那就只有安装chardet或者cchardet模块，然后使用UnicodeDammit自动检测了

8.解决字符编码这个问题后，已经得到了soup这个bs4的类。在soup中，bs4将网页节点解析成一个个Tag；

执行命令：Tag1=soup.ul