随笔分类 -  爬虫

spider
摘要:之前一直是用的github上别人爬取fofa的脚本,前两天用的时候只能爬取第一页的链接了,猜测是fofa修改了一部分规则(或者是我不小心删除了一部分文件导致不能正常运行了) 于是重新写了一下爬取fofa的代码,写的不好:( 因为fofa的登录界面是https://i.nosec.org/login? 阅读全文 »
posted @ 2020-02-29 18:09 春告鳥 阅读(4026) 评论(0) 推荐(3) 编辑
摘要:这个爬虫主要学习scrapy的item Pipeline 是时候搬出这张图了: 当我们要使用item Pipeline的时候,要现在settings里面取消这几行的注释 我们可以自定义Item Pipeline,只需要实现指定的方法,其中必须要实现的一个方法是: p process_item(ite 阅读全文 »
posted @ 2020-02-29 16:43 春告鳥 阅读(774) 评论(0) 推荐(0) 编辑
摘要:scrapy登录界面的难点在于登录时候的验证码,我们通过使用scrapy.FormRequest向目标网站提交数据(表单提交),同时将验证码显示在本地,手动输入,进而登录。 验证码是类似于这种的,才可以通过此方式登录,如网站是通过滑块验证登录的话,此方法就不再适用 因为要找到这种验证码登录的网站一时 阅读全文 »
posted @ 2020-02-24 11:22 春告鳥 阅读(1571) 评论(0) 推荐(0) 编辑
摘要:爬取的目标网站是: http://www.wxapp-union.com/portal.php?mod=list&catid=2&page=1 目的是爬取每一个教程的标题,作者,时间和详细内容 通过下面的命令可以快速创建 CrawlSpider模板 的代码: scrapy genspider wsa 阅读全文 »
posted @ 2020-02-20 19:46 春告鳥 阅读(793) 评论(0) 推荐(0) 编辑
摘要:因为在Scrapy的使用过程中,提取页面信息使用XPath比较方便,遂成此文。 在b站上看了介绍XPath的:https://www.bilibili.com/video/av30320885?from=search&seid=17721548966745663758 认识XPath 1,什么是XP 阅读全文 »
posted @ 2020-02-17 20:35 春告鳥 阅读(308) 评论(0) 推荐(0) 编辑
摘要:看到自己写的惨不忍睹的爬虫,觉得还是学一下Scrapy框架,停止一直造轮子的行为 我这里是windows10平台,python2和python3共存,这里就写python2.7安装配置Scrapy框架的过程 1,python安装过程不用多说,安装好了之后记得要添加python到环境变量里面去我这里是 阅读全文 »
posted @ 2020-02-12 16:46 春告鳥 阅读(484) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示