scrapy 正则提取数据

一直使用xpath和css提取数据,但是有些时候需要处理一些数字,使用正则相对来说更简单些

比如  只想提取a标签里的245,用xpath和css还需要特殊处理

 

 

 

1 page_list = response.xpath(
2 '//div[@class="paging_content"]/div[@class="m-page"]/a[1]/text()').re(r'\d{1,}')
3 if page_list and len(page_list) > 0:
4     page_count = int(page_list[0])

page_list提取出来的是一个list,需要转换类型

 

posted @ 2021-08-25 15:09  kakaok  阅读(246)  评论(0编辑  收藏  举报