2017 年 12月 24 日随笔档案 - Charles.L

2017年12月24日

摘要：我们在写普通脚本的时候，从一个网站拿到一个文件的下载url，然后下载，直接将数据写入文件或者保存下来，但是这个需要我们自己一点一点的写出来，而且反复利用率并不高，为了不重复造轮子，scrapy提供很流畅的下载文件方式，只需要随便写写便可用了。 mat.py文件 pipelines.py settin 阅读全文

posted @ 2017-12-24 15:33 Charles.L 阅读(7404) 评论(0) 推荐(0) 编辑

python爬虫scrapy的LinkExtractor

摘要：使用背景：我们通常在爬去某个网站的时候都是爬去每个标签下的某些内容，往往一个网站的主页后面会包含很多物品或者信息的详细的内容，我们只提取某个大标签下的某些内容的话，会显的效率较低，大部分网站的都是按照固定套路（也就是固定模板，把各种信息展示给用户），LinkExtrator就非常适合整站抓取，为什阅读全文

posted @ 2017-12-24 10:38 Charles.L 阅读(13302) 评论(1) 推荐(1) 编辑

Charles.L

人生苦短

公告