摘要: import scrapy import json class PostSpider(scrapy.Spider): name = 'post' # allowed_domains = ['www.xxx.com'] start_urls = ['https://fanyi.baidu.com/sug'] def start_requests(self): ... 阅读全文
posted @ 2019-03-04 21:55 中杯可乐不加冰 阅读(319) 评论(0) 推荐(0) 编辑
摘要: BOT_NAME 默认: 'scrapybot' 当您使用 startproject 命令创建项目时其也被自动赋值。 BOT_NAME 默认: 'scrapybot' 当您使用 startproject 命令创建项目时其也被自动赋值。 ROBOTSTXT_OBEY = False 是否遵守rebot 阅读全文
posted @ 2019-03-04 21:47 中杯可乐不加冰 阅读(156) 评论(0) 推荐(0) 编辑
摘要: 项目需求:爬取https://www.4567tv.tv/frim/index1.html网站前三页的电影名称和电影的导演名称 项目分析:电影名称在初次发的url返回的response中可以获取,可以通过对url进行字符串拼接的方式动态获取前三页的url,但是导演名称必须点击具体电影的链接地址才可以 阅读全文
posted @ 2019-03-04 21:38 中杯可乐不加冰 阅读(5446) 评论(0) 推荐(0) 编辑
摘要: 一、Scrapy框架简介 Scrapy 是用 Python 实现的一个为了爬取网站数据、提取结构性数据而编写的应用框架。 Scrapy 常应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中。 通常我们可以很简单的通过 Scrapy 框架实现一个爬虫,抓取指定网站的内容或图片。 二、Scrap 阅读全文
posted @ 2019-03-04 21:23 中杯可乐不加冰 阅读(253) 评论(0) 推荐(0) 编辑