python - beautifulsoup4模块
# beautifulsoup4学习 # 是一个python模块 用于接受一个HTML 或 XML 字符串,然后将其进行格式化,之后便可以使用模块提供的方法进行快速查找指定元素, # 从而是的在HTML 或xml中差汇总指定元素变得简单 # 安装方式: # pip beautifulsoup4 # 引入方式: from bs4 import BeautifulSoup #实例化,指定文本类型 # soup = BeautifulSoup("HTML 文本",features="lxml") # 基本使用 #查找单个标签 # f1 = soup.find("标签属性/标签名") #查找一类标签 # f2 = soup.find_all("标签属性/标签名") #jquery方式查找 id='name' # f3 = soup.select("#name") # 属性参数: # # .find / .find_all () # .find/find_all(下面参数) # # # 基本查找 # # name='属性', # # attrs={'class':'属性'}, # # recursive = True/False, #是否递归查找 # # text='文本内容', # # # 高级查找 # name/id/class_/href/text =['需要查找的值'] # # # 正则表达式 # import re # res = re.compile("div") # f1.find_all(name/id/class_/href/text = res) # # # 函数方式 # def abc(self) # return self.has_attr('class') and self.has_attr("id") # f1.find_all(name = abc()) # .get() 属性 获取标签的属性值 # .get_text 属性 获取当前标签的文本 # .has_attr 属性 检查标签是或否具有该属性 # .name属性: 获取标签的标签名子 # f1.name # .atters 获取属性 # .atters['属性'] = 新属性值 # .children 获取标签的子标签 # .descendants 获取当前标签的所有后代标签 # .clear 清空当前标签的所有子标签 # .decompose 删除当前所有标签 # .extract 删除当前所有标签,并返回值(所删除的标签) # .encode 将当前内容转换为字节数据,包含当前标签 # .encode_contents 将当前内容转换为字节数据,不包含当前标签 # .decode 将当前内容转换为字符数据,包含当前标签 # .decode_contents 将当前内容转换为字节数据,不包含当前标签
既要脚踏实地,也需仰望天空