摘要: 在item的Filed()中设置参数函数,可以用来预处理item字段的数据,另一方面也方便程序代码的管理和重用 item中 from scrapy.loader.processors import MapCompose, TakeFirstimport scrapyfrom scrapy.loade 阅读全文
posted @ 2017-11-02 19:41 言守中 阅读(1059) 评论(0) 推荐(0) 编辑
摘要: scrapy中response提取的没有主域名的url拼接 # 1.导入urllib的parse # 2.调用parse.urljoin()进行拼接,例子中response.url会自动提取出当前页面url的主域名,get_url是从response中的元素中提取的没有主域名的url from ur 阅读全文
posted @ 2017-11-02 11:01 言守中 阅读(4505) 评论(0) 推荐(0) 编辑