摘要: 今天webmaigic爬虫又学了一个小技巧,想要自己设计保存爬取内容形式,可以不用重写Pipeline,在process()方法中写上,你想要的保存操作,多数情况可以达到相同的效果,我的爬虫程序,想要将内容保存在一个txt中,就是这么实现的,个人感觉简单很多,也是看了网上的高手的文章,才学到了这个技 阅读全文
posted @ 2020-02-15 21:33 集 阅读(157) 评论(0) 推荐(0) 编辑
摘要: 今天依旧学习了webmagic爬虫,发现昨天爬取的网址不对,内容也不对,重新找了一个网址爬取,重新整理了思路,发现这个网址,分为三种类型的链接,建议,咨询和一个什么记不清了,需要先判断类型,然后才能分配Id,然后加入url队列。 这个网址的一大难点,就是分页是一个POST传值,然后动态的修改了网页内 阅读全文
posted @ 2020-02-15 01:25 集 阅读(101) 评论(0) 推荐(0) 编辑