菜鸟SSS

2019年7月17日

摘要：采集网址：https://www.zhihu.com/people/ponyma/followers 爬虫文件 import scrapy import json class ZhihuSpider(scrapy.Spider): name = 'zhihu' allowed_domains = [ 阅读全文

posted @ 2019-07-17 16:18 菜鸟SSS 阅读(355) 评论(0) 推荐(0) 编辑

2019年7月12日

BeautifulSoup 与 scrapy 的区别是什么？

摘要： Scrapy 是一个框架。scrapy是一个web网站抓取框架，你可以给scrapy一个网站的网址，然后他就会帮你采集数据，并且你可以指定网址的数量来进行采集。scrapy是一个完整的Web抓取框架或者说是爬虫框架。 BeautifulSoup 是一个数据解析库。并且从网址中获取数据同样可以做的很好阅读全文

posted @ 2019-07-12 18:05 菜鸟SSS 阅读(3457) 评论(1) 推荐(0) 编辑

Scrapy中怎么传递用户自定义的参数到爬虫文件所在的类中呢？

摘要：问题：我试图将用户定义的参数传递给scrapy的爬虫文件。我知道应该使用 -a 参数但是我对于这个参数不是太明白？想要通过crawl命令行命令传入自定义参数应该使用-a选项，例如： scrapy crawl myspider -a category=electronics -a domain= 阅读全文

posted @ 2019-07-12 18:03 菜鸟SSS 阅读(792) 评论(0) 推荐(0) 编辑

Scrapy结合Selenium怎样采集动态加载网站？

摘要： Scrapy和Selenium的结合使用确实取决于你采集的网站，以及你想采集什么样的数据等。下面的代码就是一个简单的案例，这个案例可以帮助你在商品网站上进行翻页： import scrapy from selenium import webdriver class ProductSpider(scr 阅读全文

posted @ 2019-07-12 17:59 菜鸟SSS 阅读(403) 评论(0) 推荐(0) 编辑

采集动态加载的网站，除了使用Selenium，还有其他类似的解决方案吗？

摘要：我在采集一些网站的时候遇到这样的问题，当我还在调试阶段的时候，我的爬虫在运行以后总是会采集很多数据而难以停止下来，除非我需要Ctrl+C强行暂停才可以，但是有的数据量确实比较庞大，采集速度也特别快，所以我想要在我调试阶段的时候能够制定采集一定的数据，爬虫就会终止下来，这样我既能查看数据是否正确又能不阅读全文

posted @ 2019-07-12 17:56 菜鸟SSS 阅读(889) 评论(0) 推荐(0) 编辑

使用Scrapy爬取我主良缘所有图片

摘要：目标网址：http://www.7799520.com/jiaoyou.html 一创建项目： scrapy startproject 项目名(我这里是wzlySpider) 进入创建好的wzlySpider 目录文件下创建爬虫文件 scrapy genspider wzly www.77005 阅读全文

posted @ 2019-07-12 17:48 菜鸟SSS 阅读(402) 评论(0) 推荐(0) 编辑

Scrapy怎样同时运行多个爬虫？

摘要：默认情况下，当你运行 scrapy crawl 命令的时候，scrapy只能在单个进程里面运行一个爬虫。然后Scrapy运行方式除了采用命令行式的运行方式以外还可以使用API的方式来运行爬虫，而采用API的方式运行的爬虫是支持运行多个爬虫的。下面的案例是运行多个爬虫： import scrapy 阅读全文

posted @ 2019-07-12 17:02 菜鸟SSS 阅读(2183) 评论(0) 推荐(0) 编辑

2019年5月31日

爬取企查查

摘要：爬取企查查需要考虑到其验证码问题验证码有两种（滑动验证码和图片验证码）一、滑动验证码解决办法：使用selenium技术 1 先获取到需滑动的块状 2 进行滑动、点击按钮具体代码如下： def get_track(distance): track = [] current = 0 mid = 阅读全文

posted @ 2019-05-31 18:49 菜鸟SSS 阅读(7051) 评论(0) 推荐(0) 编辑

2019年5月27日

Scrapy框架

摘要：一简介 Scrapy，Python开发的一个快速、高层次的屏幕抓取和web抓取框架，用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛，可以用于数据挖掘、监测和自动化测试安装scrapy 使用pip进行安装运行cmd命令进入终端执行命令：pip install Scrapy 阅读全文

posted @ 2019-05-27 18:54 菜鸟SSS 阅读(322) 评论(0) 推荐(0) 编辑

2019年5月16日

django-分页

摘要：一创建分页视图类 from .models import Data from django.views.generic import ListView class DataListView(ListView): model = Data # 渲染的页面 template_name = 'index 阅读全文

posted @ 2019-05-16 14:14 菜鸟SSS 阅读(259) 评论(0) 推荐(0) 编辑

公告