会员
周边
众包
新闻
博问
闪存
赞助商
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
网站更新内容:请访问: https://bigdata.ministep.cn/
bigdata.ministep.cn
网站已迁移到:https://bigdata.ministep.cn/
博客园
首页
新随笔
联系
订阅
管理
2022年4月23日
python中去掉字符串中的\xa0、\t、\n
摘要: 网页爬虫中\xa0、\u3000等字符的解释及去除 \xa0表示不间断空白符,爬虫中遇到它的概率不可谓不小,而经常和它一同出现的还有\u3000、\u2800、\t等Unicode字符串。单从对\xa0、\t、\u3000等含空白字符的处理来说,有以下几种方法可行: 使用re.sub 使用正则表达式
阅读全文
posted @ 2022-04-23 23:09 ministep88
阅读(3068)
评论(0)
推荐(0)
编辑
公告
网站更新内容:请访问:https://bigdata.ministep.cn/