【2022.05.28】动态网页爬取,对txt文档处理

之前写爬虫使用的都是强制等待,这么做的话会有问题,有的时候网络环境不好的话,那么可能始终加载不出来,所以本次采用了显示等待

隐式等待是在加载整个网页加载完成,所以还是使用显示等待,等待某个元素出现,这样会比较好一些

读取网络路径的文件出了一点儿问题,以前都是读取本地文件的

那么就读取下来

from urllib.request import urlopen
textPage=urlopen(txt_url_list[0])
print(textPage.read())

但是txt是流式文件,会有很多的转义符号,因此还是需要一些处理

我爬取的内容是bytes类型的,还需要进行str进行转化,才能使用字符串函数

还有就是将所有的空格都压缩为一个

from urllib.request import urlopen
import re
textPage=urlopen(txt_url_list[0])
content_bytes = textPage.read()
print(content_bytes)
content = str(content_bytes, encoding="utf8")
# 处理多余的字符,将他们全部转为空格
content = content.replace('\t', ' ').replace('\r', ' ').replace('\n', ' ')
# 合并多余空格
content = re.sub(' +', ' ', content)
print(content)

参考链接

selenium的三种等待方式(显示等待,隐式等待,强制等待)简单了解与总结_卷王之王thorne的博客-CSDN博客_selenium显示等待

Python+Selenium程序执行完,浏览器自动关闭问题_洛神赋520的博客-CSDN博客_selenium浏览器自动关闭

Python By.CSS_SELECTOR属性代码示例 - 纯净天空 (vimsky.com)

python网络爬虫文档读取-纯文本读取_perfecttshoot的博客-CSDN博客_爬虫爬取文本

Python如何提取文本中的所有数字,原来这问题这么难 - 云+社区 - 腾讯云 (tencent.com)

posted @ 2022-05-29 16:02  Mokou  阅读(172)  评论(0编辑  收藏  举报