摘要: 采集网址:https://www.zhihu.com/people/ponyma/followers 爬虫文件 import scrapy import json class ZhihuSpider(scrapy.Spider): name = 'zhihu' allowed_domains = [ 阅读全文
posted @ 2019-07-17 16:18 菜鸟SSS 阅读(355) 评论(0) 推荐(0) 编辑
摘要: Scrapy 是一个框架。scrapy是一个web网站抓取框架,你可以给scrapy一个网站的网址,然后他就会帮你采集数据,并且你可以指定网址的数量来进行采集。scrapy是一个完整的Web抓取框架或者说是爬虫框架。 BeautifulSoup 是一个数据解析库。并且从网址中获取数据同样可以做的很好 阅读全文
posted @ 2019-07-12 18:05 菜鸟SSS 阅读(3457) 评论(1) 推荐(0) 编辑
摘要: 问题: 我试图将用户定义的参数传递给scrapy的爬虫文件。我知道应该使用 -a 参数 但是我对于这个参数不是太明白? 想要通过crawl命令行命令传入自定义参数应该使用-a选项,例如: scrapy crawl myspider -a category=electronics -a domain= 阅读全文
posted @ 2019-07-12 18:03 菜鸟SSS 阅读(792) 评论(0) 推荐(0) 编辑
摘要: Scrapy和Selenium的结合使用确实取决于你采集的网站,以及你想采集什么样的数据等。下面的代码就是一个简单的案例,这个案例可以帮助你在商品网站上进行翻页: import scrapy from selenium import webdriver class ProductSpider(scr 阅读全文
posted @ 2019-07-12 17:59 菜鸟SSS 阅读(403) 评论(0) 推荐(0) 编辑
摘要: 我在采集一些网站的时候遇到这样的问题,当我还在调试阶段的时候,我的爬虫在运行以后总是会采集很多数据而难以停止下来,除非我需要Ctrl+C强行暂停才可以,但是有的数据量确实比较庞大,采集速度也特别快,所以我想要在我调试阶段的时候能够制定采集一定的数据,爬虫就会终止下来,这样我既能查看数据是否正确又能不 阅读全文
posted @ 2019-07-12 17:56 菜鸟SSS 阅读(889) 评论(0) 推荐(0) 编辑
摘要: 目标网址:http://www.7799520.com/jiaoyou.html 一 创建项目: scrapy startproject 项目名(我这里是wzlySpider) 进入创建好的wzlySpider 目录文件下 创建爬虫文件 scrapy genspider wzly www.77005 阅读全文
posted @ 2019-07-12 17:48 菜鸟SSS 阅读(402) 评论(0) 推荐(0) 编辑
摘要: 默认情况下,当你运行 scrapy crawl 命令的时候,scrapy只能在单个进程里面运行一个爬虫。然后Scrapy运行方式除了采用命令行式的运行方式以外还可以使用API的方式来运行爬虫,而采用API的方式运行的爬虫是支持运行多个爬虫的。 下面的案例是运行多个爬虫: import scrapy 阅读全文
posted @ 2019-07-12 17:02 菜鸟SSS 阅读(2183) 评论(0) 推荐(0) 编辑
摘要: 爬取企查查需要考虑到其验证码问题 验证码有两种(滑动验证码和图片验证码) 一、滑动验证码 解决办法:使用selenium技术 1 先获取到需滑动的块状 2 进行滑动、点击按钮 具体代码如下: def get_track(distance): track = [] current = 0 mid = 阅读全文
posted @ 2019-05-31 18:49 菜鸟SSS 阅读(7051) 评论(0) 推荐(0) 编辑
摘要: 一 简介 Scrapy,Python开发的一个快速、高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试 安装scrapy 使用pip进行安装 运行cmd命令进入终端 执行命令:pip install Scrapy 阅读全文
posted @ 2019-05-27 18:54 菜鸟SSS 阅读(322) 评论(0) 推荐(0) 编辑
摘要: 一 创建分页视图类 from .models import Data from django.views.generic import ListView class DataListView(ListView): model = Data # 渲染的页面 template_name = 'index 阅读全文
posted @ 2019-05-16 14:14 菜鸟SSS 阅读(259) 评论(0) 推荐(0) 编辑