Python中bs解析
简介
Beautiful Soup是python的一个库,最主要的功能是从网页抓取数据
官方解释
-
Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱,通过解析文档为用户提供需要抓取的数据,因为简单,所以不需要多少代码就可以写出一个完整的应用程序。
-
Beautiful Soup自动将输入文档转换为Unicode编码,输出文档转换为utf-8编码。你不需要考虑编码方式,除非文档没有指定一个编码方式,这时,Beautiful Soup就不能自动识别编码方式了。然后,你仅仅需要说明一下原始编码方式就可以了。
-
Beautiful Soup已成为和lxml、html6lib一样出色的python解释器,为用户灵活地提供不同的解析策略或强劲的速度。
安装
pip install bs4
本文示例的html代码
<div>
<div>
<ul>
<li class="item-0">
<a href="link1.html"><!--这是一个注释--></a>
</li>
<li class="item-1">
<a href="link2.html">second item</a>
</li>
</ul>
</div>
<div id="111">
<div class="item-1">
<a href="www.qq.com">qq.com</a>
<p>this is p label</p>
<ul>
<li class="item-2">
<a href="link1.html">first item1</a>
</li>
<li class="item-3">
<a href="link2.html">second item2</a>
</li>
</ul>
</div>
<a href="www.baidu.com">baidu.com</a>
</div>
</div>
用法
实例化对象
from bs4 import BeautifulSoup
# 将互联网上获取的源码数据加载到该对象中
soup = BeautifulSoup(resp.text, 'lxml')
# 将本地的html文件加载etree对象中
soup = BeautifulSoup(open("file_path"))
soup.prettify() # 格式化html文件
bs表达式
四大对象种类
Beautiful Soup将复杂HTML文档转换成一个复杂的树形结构,每个节点都是Python对象,所有对象可以归纳为4种:
- Tag:标签
- NavigableString:文本
- BeautifulSoup
- Comment
Tag
用 BeautifulSoup 可以很方便地获取 Tags
print(soup.li) # 获取第一个符合的li标签
print(soup.head) # 获取头部标签内的代码
对于 Tag,它有两个重要的属性,name 和 attrs
print(soup.li.name) # 输出li
print(soup.name) # soup实质为一个文档
print(soup.li["class"]) # 输出li标签内,class属性的值,即等号后面的值
print(soup.li.get("class")) # 等价
NavigableString
既然我们得到了标签内容,我们就可以获取标签内部的文字
print(soup.a.string)
print(type(soup.a.string))
BeautifulSoup
BeautifulSoup 对象表示的是一个文档的全部内容.大部分时候,可以把它当作 Tag 对象,是一个特殊的 Tag,我们可以分别获取它的类型,名称以及属性
print(type(soup))
print(soup.string)
print(soup.attrs)
Comment
Comment 对象是一个特殊类型的 NavigableString 对象,其实输出的内容仍然不包括注释符号,但是如果不好好处理它,可能会对我们的文本处理造成意想不到的麻烦
print(soup.a.string) # 输出“这是一个注释”为comment类型
if type(soup.a.string)==bs4.element.Comment:
print(soup.a.string) # 通过这个来判断是否为注释
搜索文档树
find_all
( name , attrs , recursive , text , **kwargs )
name 参数
传字符串
最简单的过滤器是字符串.在搜索方法中传入一个字符串参数,Beautiful Soup会查找与字符串完整匹配的内容,
print(soup.find_all("li")) # 查找文档中所有的\<li>标签
传正则表达式
如果传入正则表达式作为参数,Beautiful Soup会通过正则表达式的 match() 来匹配内容
print(soup.find_all(re.compile("^b"))) # 匹配所有以b开头的标签
传列表
如果传入列表参数,Beautiful Soup会将与列表中任一元素匹配的内容返回
print(soup.find_all(["li", "a"])) # 找到所有的li标签和a标签
传 True
True 可以匹配任何值,下面代码查找到所有的tag,但是不会返回字符串节点
print(soup.find_all(True))
传方法
如果没有合适过滤器,那么还可以定义一个方法,方法只接受一个元素参数,如果这个方法返回 True 表示当前元素匹配并且被找到,如果不是则返回 False
def has_class_but_no_id(tag):
return tag.has_attr('class') and not tag.has_attr('id')
print(soup.find_all(has_class_but_no_id))
attrs 参数
如果一个指定名字的参数不是搜索内置的参数名,搜索时会把该参数当作指定名字tag的属性来搜索,如果包含一个名字为 id 的参数,Beautiful Soup会搜索每个tag的”id”属性
soup.find_all(id='111')
如果传入 href 参数,Beautiful Soup会搜索每个tag的”href”属性
soup.find_all(href=re.compile("link"))
使用多个指定名字的参数可以同时过滤tag的多个属性
soup.find_all(href=re.compile("link"), id='111')
如果标签名和python中的关键字重合
soup.find_all(attrs={"class"; "item-0"}) # 字典传参
soup.find_all(class_="item-0") # 等价
text 参数
通过 text 参数可以搜搜文档中的字符串内容.与 name 参数的可选值一样, text 参数接受 字符串 , 正则表达式 , 列表, True
soup.find_all(text="first item1")
limit 参数
find_all() 方法返回全部的搜索结构,如果文档树很大那么搜索会很慢.如果我们不需要全部结果,可以使用 limit 参数限制返回结果的数量.效果与SQL中的limit关键字类似,当搜索到的结果数量达到 limit 的限制时,就停止搜索返回结果
print(soup.find_all("li", limit=3))
recursive 参数
调用tag的 find_all() 方法时,Beautiful Soup会检索当前tag的所有子孙节点,如果只想搜索tag的直接子节点,可以使用参数recursive=False
print(soup.find_all("li", limit=3, recursive=False))
find
( name , attrs , recursive , text , **kwargs )
它与 find_all() 方法唯一的区别是 find_all() 方法的返回结果是值包含一个元素的列表,而 find() 方法直接返回结果
CSS选择器
我们在写 CSS 时,标签名不加任何修饰,类名前加点,id名前加 #,在这里我们也可以利用类似的方法来筛选元素,用到的方法是 soup.select(),返回类型是 list
通过标签名查找
print(soup.select('li'))
通过类名查找
print(soup.select('.item-0')) # 注意要加点
通过 id 名查找
print(soup.select('#111'))
组合查找
组合查找即和写 class 文件时,标签名与类名、id名进行的组合原理是一样的,例如查找 p 标签中,id 等于 link1的内容,二者需要用空格分开
print(soup.select('li' ".item-0"))
直接子标签查找
print(soup.select("li > a"))
属性查找
查找时还可以加入属性元素,属性需要用中括号括起来,注意属性和标签属于同一节点,所以中间不能加空格,否则会无法匹配到
print(soup.select('a[href="link2.html"]'))
案例
import threading, queue
"""爬虫多线程"""
class SpiderThread(threading.Thread):
def __init__(self) -> "里面包含了请求头和代理IP 代理ip自己设置":
super().__init__(daemon=True) # daemon线程等待,target是运行的函数
# 开启队列对象
self.queue = queue.Queue()
# 线程
self.start() # 实例化的时候自动运行run函数
try:
# 构建ip池,此ip地址仅支持http请求
file = open("./ip.txt", "r") # 得到大量ip地址,与文件同一目录下,存储http类型的ip池
ipList = file.readlines()
file.close()
import random
self.ip = random.choice(ipList).strip()
except Exception as e:
print(f"没有批量ip地址,使用本机ip地址{e}")
import socket
s = socket.socket(socket.AF_INET, socket.SOCK_DGRAM)
s.connect(('8.8.8.8', 80))
import random
self.ip = s.getsockname()[0] + f":{random.randint(1, 8080)}" # 获取本电脑的ip地址,同时随机使用端口访问网址
s.close()
# 传入requests所需要的参数
self.headers = {
'User-Agent': "Mozilla / 5.0(Windows NT 10.0;Win64;x64) AppleWebKit / 537.36(KHTML, likeGecko) Chrome / 96.0.4664 .93 Safari / 537.36"
}
self.proxy = {
"http": f"https://{self.ip}",
# 注意:如果请求的ip是https类型的,但代理的ip是只支持http的,那么还是使用本机的ip,如果请求的ip是http类型的,那么代理的ip一定要是http的,前面不能写成https,否则使用本机IP地址
}
def run(self) -> None: # run方法线程自带的方法,内置方法,在线程运行时会自动调用
while True: # 不断处理任务
func, args, kwargs = self.queue.get()
func(*args, **kwargs) # 调用函数执行任务 元组不定长记得一定要拆包
self.queue.task_done() # 解决一个任务就让计数器减一,避免阻塞
# 生产者模型
def submit_task(self, func, args=(), kwargs={}): # func为要执行的任务,加入不定长参数使用(默认使用默认参数)
self.queue.put((func, args, kwargs)) # 提交任务
# 重写join方法
def join(self):
self.queue.join() # 查看队列计时器是否为0 任务为空 为空关闭队列
def crawl(url, lis, cookies=None, headers=SpiderThread().headers,
proxy=SpiderThread().proxy) -> "lis用来存储返回的resp响应 其是发送get请求": # cookies是一个字典
import requests
if not isinstance(cookies, dict):
resp = requests.get(url=url, headers=headers, proxies=proxy)
else:
resp = requests.get(url=url, headers=headers, cookies=cookies)
if resp.status_code == 200:
print("获取完成,返回的数据在传入的列表里面")
lis.append(resp) # 多线程没有返回值
else:
SpiderThread().submit_task(crawl, args=(i, lis))
# 爬取58同城中全国销售职位的名称
from bs4 import BeautifulSoup
import MyModule
from concurrent.futures import ThreadPoolExecutor
spider = MyModule.SpiderThread() # 实例化爬虫对象
"""
通过分析url可得到 url = 'https://nc.58.com/yewu/pu1/?key=%E9%94%80%E5%94%AE';
又第二页的 url = 'https://nc.58.com/yewu/pn2/?key=%E9%94%80%E5%94%AE'
"""
# 得到所有页面的url
def spider1():
resp = [] # 接收返回的页面源代码
url = "https://nc.58.com/yewu/?key=%E9%94%80%E5%94%AE"
spider.submit_task(MyModule.crawl, args=(url, resp))
spider.join() # 等待线程完成
page_source = resp[0].text # 得到页面源码
html = BeautifulSoup(page_source, "lxml") # 实例化bs对象
num = int(html.find("span", attrs={"class": "total_page"}).string)
return [f"https://nc.58.com/yewu/pn{i}/?key=%E9%94%80%E5%94%AE" for i in range(1, num)]
def crawl():
respAll = [] # 存储响应
for i in spider1():
spider.submit_task(MyModule.crawl, args=(i, respAll)) # 运行封装的模块
spider.join() # 等待全部线程完成
return [i.text for i in respAll] # 返回响应源代码
def save(resp_text):
html = BeautifulSoup(resp_text, "lxml")
import re
torr = html.find_all("li", class_=re.compile("job_item"))
file = open("./a.txt", "a+", encoding="utf-8") # 写入文件
for i in torr:
name = "".join([j.string for j in i.find_all("span", limit=2)])
file.write(f"名称:{name}")
file.close()
def main(respAll):
with ThreadPoolExecutor(50) as pool: # 使用线程池,开启50个线程,对文件进行存储
pool.map(save, respAll)
if __name__ == '__main__':
main(crawl()) # 注意:由于是高性能爬虫,电脑的ip地址很大概率会被58同城封了,尽量使用代理ip
本文来自博客园,作者:Kenny_LZK,转载请注明原文链接:https://www.cnblogs.com/liuzhongkun/p/15805568.html