python - beautifulsoup4模块

# beautifulsoup4学习
#   是一个python模块 用于接受一个HTML 或 XML 字符串,然后将其进行格式化,之后便可以使用模块提供的方法进行快速查找指定元素,
# 从而是的在HTML 或xml中差汇总指定元素变得简单

# 安装方式:
# pip beautifulsoup4

# 引入方式:
from bs4 import BeautifulSoup

#实例化,指定文本类型
# soup = BeautifulSoup("HTML 文本",features="lxml")

# 基本使用
    #查找单个标签
    # f1 = soup.find("标签属性/标签名")

    #查找一类标签
    # f2 = soup.find_all("标签属性/标签名")

    #jquery方式查找 id='name'
    # f3 = soup.select("#name")

# 属性参数:
# #       .find / .find_all ()
#             .find/find_all(下面参数)
#                 # # 基本查找
#                 # name='属性',
#                 # attrs={'class':'属性'},
#                 # recursive = True/False,  #是否递归查找
#                 # text='文本内容',
#
#                 # 高级查找
#                 name/id/class_/href/text =['需要查找的值']
#
#                 # 正则表达式
#                 import re
#                 res = re.compile("div")
#                 f1.find_all(name/id/class_/href/text = res)
#
#                 # 函数方式
#                 def abc(self)
#                     return self.has_attr('class') and self.has_attr("id")
#                 f1.find_all(name = abc())

#        .get() 属性 获取标签的属性值

#        .get_text 属性 获取当前标签的文本

#        .has_attr 属性 检查标签是或否具有该属性



#       .name属性: 获取标签的标签名子
#               f1.name

#       .atters 获取属性
#       .atters['属性'] = 新属性值

#       .children 获取标签的子标签

#       .descendants 获取当前标签的所有后代标签

#       .clear 清空当前标签的所有子标签

#       .decompose 删除当前所有标签

#       .extract 删除当前所有标签,并返回值(所删除的标签)

#       .encode 将当前内容转换为字节数据,包含当前标签
#       .encode_contents 将当前内容转换为字节数据,不包含当前标签

#       .decode 将当前内容转换为字符数据,包含当前标签
#       .decode_contents 将当前内容转换为字节数据,不包含当前标签

 

posted @ 2018-11-10 15:13  Anec  阅读(205)  评论(0编辑  收藏  举报