2020 年 8月 5 日随笔档案 - 耗油炒白菜

2020年8月5日

摘要：示例： import scrapy from firstscrapy.items import CnblogsMysqlItem class CnblogsSpider(scrapy.Spider): name = 'cnblogs' allowed_domains = ['www.cnblogs. 阅读全文

posted @ 2020-08-05 23:42 耗油炒白菜阅读(111) 评论(0) 推荐(0) 编辑

scrapy练习

摘要： 1、爬取cnblogs首页文章，打印出标题和连接地址 spiders/cnblogs.py import scrapy class CnblogsSpider(scrapy.Spider): name = 'cnblogs' allowed_domains = ['www.cnblogs.com'] 阅读全文

posted @ 2020-08-05 19:53 耗油炒白菜阅读(218) 评论(0) 推荐(0) 编辑

爬虫之Scrapy框架

摘要：一介绍（爬虫界的django） Scrapy一个开源和协作的框架，其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的，使用它可以以快速、简单、可扩展的方式从网站中提取所需的数据。但目前Scrapy的用途十分广泛，可用于如数据挖掘、监测和自动化测试等领域，也可以应用在获取API所返回的数据( 阅读全文

posted @ 2020-08-05 14:40 耗油炒白菜阅读(241) 评论(0) 推荐(0) 编辑

selenium练习

摘要：爬取豆瓣top250电影：https://movie.douban.com/top250 from selenium import webdriver import time bro = webdriver.Chrome(executable_path='./chromedriver.exe') # 阅读全文

posted @ 2020-08-05 00:40 耗油炒白菜阅读(107) 评论(0) 推荐(0) 编辑

耗油炒白菜

公告