摘要: 我们在写普通脚本的时候,从一个网站拿到一个文件的下载url,然后下载,直接将数据写入文件或者保存下来,但是这个需要我们自己一点一点的写出来,而且反复利用率并不高,为了不重复造轮子,scrapy提供很流畅的下载文件方式,只需要随便写写便可用了。 mat.py文件 pipelines.py settin 阅读全文
posted @ 2017-12-24 15:33 Charles.L 阅读(7404) 评论(0) 推荐(0) 编辑
摘要: 使用背景: 我们通常在爬去某个网站的时候都是爬去每个标签下的某些内容,往往一个网站的主页后面会包含很多物品或者信息的详细的内容,我们只提取某个大标签下的某些内容的话,会显的效率较低,大部分网站的都是按照固定套路(也就是固定模板,把各种信息展示给用户),LinkExtrator就非常适合整站抓取,为什 阅读全文
posted @ 2017-12-24 10:38 Charles.L 阅读(13302) 评论(1) 推荐(1) 编辑