【2022.05.28】动态网页爬取,对txt文档处理
之前写爬虫使用的都是强制等待,这么做的话会有问题,有的时候网络环境不好的话,那么可能始终加载不出来,所以本次采用了显示等待
隐式等待是在加载整个网页加载完成,所以还是使用显示等待,等待某个元素出现,这样会比较好一些
读取网络路径的文件出了一点儿问题,以前都是读取本地文件的
那么就读取下来
from urllib.request import urlopen
textPage=urlopen(txt_url_list[0])
print(textPage.read())
但是txt是流式文件,会有很多的转义符号,因此还是需要一些处理
我爬取的内容是bytes类型的,还需要进行str进行转化,才能使用字符串函数
还有就是将所有的空格都压缩为一个
from urllib.request import urlopen
import re
textPage=urlopen(txt_url_list[0])
content_bytes = textPage.read()
print(content_bytes)
content = str(content_bytes, encoding="utf8")
# 处理多余的字符,将他们全部转为空格
content = content.replace('\t', ' ').replace('\r', ' ').replace('\n', ' ')
# 合并多余空格
content = re.sub(' +', ' ', content)
print(content)
参考链接
selenium的三种等待方式(显示等待,隐式等待,强制等待)简单了解与总结_卷王之王thorne的博客-CSDN博客_selenium显示等待
Python+Selenium程序执行完,浏览器自动关闭问题_洛神赋520的博客-CSDN博客_selenium浏览器自动关闭
Python By.CSS_SELECTOR属性代码示例 - 纯净天空 (vimsky.com)