网站更新内容:请访问: https://bigdata.ministep.cn/
摘要: 网页爬虫中\xa0、\u3000等字符的解释及去除 \xa0表示不间断空白符,爬虫中遇到它的概率不可谓不小,而经常和它一同出现的还有\u3000、\u2800、\t等Unicode字符串。单从对\xa0、\t、\u3000等含空白字符的处理来说,有以下几种方法可行: 使用re.sub 使用正则表达式 阅读全文
posted @ 2022-04-23 23:09 ministep88 阅读(3068) 评论(0) 推荐(0) 编辑
网站更新内容:请访问:https://bigdata.ministep.cn/