2017 年 12月 6 日随笔档案 - fredgui

2017年12月6日

python 正则空格\xa0实录与xpath取 div 里面的含多个标签的所有文字

摘要：业余玩爬虫时，由原先的原生写法改为 scrapy框架了，使用自带的selector时，xpath配合正则来抓取回复数和阅读数的时候，遇到的小问题，mark下。首先获取到我需要的数据块，（我用scrapy shell调试的）对应的html文档是：关于这个空格&nbsp 被爬成了\xa0的阅读全文

posted @ 2017-12-06 10:18 fredgui 阅读(3351) 评论(0) 推荐(0) 编辑

微风伏面

公告