摘要: 示例: import scrapy from firstscrapy.items import CnblogsMysqlItem class CnblogsSpider(scrapy.Spider): name = 'cnblogs' allowed_domains = ['www.cnblogs. 阅读全文
posted @ 2020-08-05 23:42 耗油炒白菜 阅读(111) 评论(0) 推荐(0) 编辑
摘要: 1、爬取cnblogs首页文章,打印出标题和连接地址 spiders/cnblogs.py import scrapy class CnblogsSpider(scrapy.Spider): name = 'cnblogs' allowed_domains = ['www.cnblogs.com'] 阅读全文
posted @ 2020-08-05 19:53 耗油炒白菜 阅读(218) 评论(0) 推荐(0) 编辑
摘要: 一 介绍(爬虫界的django) Scrapy一个开源和协作的框架,其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的,使用它可以以快速、简单、可扩展的方式从网站中提取所需的数据。但目前Scrapy的用途十分广泛,可用于如数据挖掘、监测和自动化测试等领域,也可以应用在获取API所返回的数据( 阅读全文
posted @ 2020-08-05 14:40 耗油炒白菜 阅读(241) 评论(0) 推荐(0) 编辑
摘要: 爬取豆瓣top250电影:https://movie.douban.com/top250 from selenium import webdriver import time bro = webdriver.Chrome(executable_path='./chromedriver.exe') # 阅读全文
posted @ 2020-08-05 00:40 耗油炒白菜 阅读(107) 评论(0) 推荐(0) 编辑