python bs4 BeautifulSoup

Posted on 2019-08-24 08:45 天戈朱阅读(3448) 评论(0) 编辑收藏举报

Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库。bs4 模块的 BeautifulSoup 配合requests库可以写简单的爬虫。

安装

命令：pip install beautifulsoup4

解析器

主要的解析器,以及它们的优缺点如下：

安装命令：

pip install lxml
pip install html5lib

requests

requests的底层实现就是urllib, requests能够自动帮助我们解压(gzip压缩的等)网页内容
安装命令：pip install requests
推荐使用 response.content.deocde() 的方式获取响应的html页面

pandas

安装命令：pip install pandas
基于NumPy 的一种工具，该工具是为了解决数据分析任务而创建的。

数据结构：

Series：一维数组，与Numpy中的一维array类似。二者与Python基本的数据结构List也很相近，其区别是：List中的元素可以是不同的数据类型，而Array和Series中则只允许存储相同的数据类型，这样可以更有效的使用内存，提高运算效率。
Time- Series：以时间为索引的Series。
DataFrame：二维的表格型数据结构。很多功能与R中的data.frame类似。可以将DataFrame理解为Series的容器。以下的内容主要以DataFrame为主。
Panel ：三维的数组，可以理解为DataFrame的容器。

使用

Beautiful Soup将复杂HTML文档转换成一个复杂的树形结构,每个节点都是Python对象,所有对象可以归纳为4种:

Tag
NavigableString
BeautifulSoup
Comment

Tag：Tag 对象与XML或HTML原生文档中的tag相同，tag中最重要的属性: name和attributes

从网页中获取指定标签、属性值，取值方式：

通过标签名获取：tag.name tag对应的type是<class 'bs4.element.Tag'>
通过属性获取：tag.attrs
获取标签属性：tag.get('属性名') 或 tag['属性名']

功能标签

stripped_strings：输出的字符串中可能包含了很多空格或空行,使用 .stripped_strings 可以去除多余空白内容
标准输出页面：soup.prettify()

查找元素：

find_all(class_="class") 返回的是多个标签
find(class_="class") 返回一个标签
select_one() 返回一个标签
select() 返回的是多个标签
soup = BeautifulSoup(backdata,'html.parser')　　#转换为BeautifulSoup形式属性
soup.find_all('标签名'，attrs{'属性名':'属性值'} ) #返回的是列表
limitk 控制 find_all 返回的数量
recursive=Flase 返回tag的直接子元素

demo

import sys
import io
import requests
from bs4 import BeautifulSoup as bs
import pandas as pd
import numpy as np
from py_teldcore import sqlserver_db as db

sys.stdout = io.TextIOWrapper(sys.stdout.buffer, encoding='gb18030')

url = "http://www.tianqihoubao.com/lishi/hefei/month/201812.html"


def get_soap():
    try:
        r = requests.get(url)
        soap = bs(r.text, "lxml")
        return soap
    except Exception as e:
        print(e)
        return "Request Error"


def save2cvs(data, path):
    result_weather = pd.DataFrame(data, columns=['date', 'tq', 'temp', 'wind'])
    result_weather.to_csv(path,  encoding='gbk')
    print('save weather sucess')


def save2mssql(data):
    sql = "Insert into Weather(date, tq, temp, wind) values(%s, %s, %s, %s)"
    data_list = np.ndarray.tolist(data)

    # sqlvalues = list()
    # for data in data_list:
    #     sqlvalues.append(tuple(data))

    sqlvalues = [tuple(iq) for iq in data_list]

    try:
        db.exec_sqlmany(sql, sqlvalues)
    except Exception as e:
        print(e)


def get_data():
    soap = get_soap()
    print(soap)
    all_weather = soap.find("div", class_="wdetail").find("table").find_all("tr")
    data = list()
    for tr in all_weather[1:]:
        td_li = tr.find_all("td")
        for td in td_li:
            s = td.get_text()
            data.append("".join(s.split()))

    res = np.array(data).reshape(-1, 4)
    return res


if __name__ == "__main__":
    data = get_data()
    save2mssql(data)
    print("save2 Sqlserver ok!")

参考资料

刷新页面返回顶部

天戈朱

公告

python bs4 BeautifulSoup