【2022.05.28】动态网页爬取，对txt文档处理

之前写爬虫使用的都是强制等待，这么做的话会有问题，有的时候网络环境不好的话，那么可能始终加载不出来，所以本次采用了显示等待

隐式等待是在加载整个网页加载完成，所以还是使用显示等待，等待某个元素出现，这样会比较好一些

读取网络路径的文件出了一点儿问题，以前都是读取本地文件的

那么就读取下来

from urllib.request import urlopen
textPage=urlopen(txt_url_list[0])
print(textPage.read())

但是txt是流式文件，会有很多的转义符号，因此还是需要一些处理

我爬取的内容是bytes类型的，还需要进行str进行转化，才能使用字符串函数

还有就是将所有的空格都压缩为一个

from urllib.request import urlopen
import re
textPage=urlopen(txt_url_list[0])
content_bytes = textPage.read()
print(content_bytes)
content = str(content_bytes, encoding="utf8")
# 处理多余的字符，将他们全部转为空格
content = content.replace('\t', ' ').replace('\r', ' ').replace('\n', ' ')
# 合并多余空格
content = re.sub(' +', ' ', content)
print(content)

参考链接

selenium的三种等待方式（显示等待，隐式等待，强制等待）简单了解与总结_卷王之王thorne的博客-CSDN博客_selenium显示等待

Python+Selenium程序执行完，浏览器自动关闭问题_洛神赋520的博客-CSDN博客_selenium浏览器自动关闭

Python By.CSS_SELECTOR属性代码示例 - 纯净天空 (vimsky.com)

python网络爬虫文档读取-纯文本读取_perfecttshoot的博客-CSDN博客_爬虫爬取文本

Python如何提取文本中的所有数字，原来这问题这么难 - 云+社区 - 腾讯云 (tencent.com)

posted @ 2022-05-29 16:02 Mokou 阅读(172) 评论(0) 编辑收藏举报

刷新页面返回顶部

莫多心情小站

———— I continue to fight.

【2022.05.28】动态网页爬取，对txt文档处理

参考链接

公告