ScrapySpider的使用

### 设置控制台打印的Log等级

 # setings文件
 
# 设置只打印warning以上等级的日志信息
LOG_LEVEL = 'WARNING'

在在爬虫主文件写爬取代码，使用scrapy.Request请求。

2019-08-25_20-16-04

 # baiduSpider.py文件
 
import scrapy
from spiderDM.items import SpiderdmItem
 
 
class BaiduspiderSpider(scrapy.Spider):
    name = 'baiduSpider'
    allowed_domains = ['www.baidu.com']
 
    # start_urls = ['http://www.baidu.com/']
 
    # 和start_urls功能相似，是程序开始执行的方法。
    def start_requests(self):
        url = "http://www.baidu.com"
 
        headers = {
            "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.100 Safari/537.36"
        }
 
        cookies = {
            "cookie": "_zap=14ce0193-6056-4233-a292-697015b7845f"
        }
 
        item = {"data": "information"}
 
        yield scrapy.Request(
            url=url,  # 请求的URL
            method="GET",  # 请求的方式，默认GET
            headers=headers,  # 请求头携带信息
            meta=item,  # 需要携带给回调函数的数据
            dont_filter=False,  # 是否筛选这个URL,默认False
            callback=self.parse  # 设置回调函数（下一个执行的函数）
        )
 
    def parse(self, response):
        # 创建item对象
        item = SpiderdmItem()
 
        # 获取meta里的数据；注意：获取的是浅度拷贝（复制数据的引用地址），注意后面操作对值的覆盖。深度复制：deepcopy
        item["data"] = response.meta["data"]
        print(item["data"])
 
        # 发送数据给管道
        # yield item

运行爬虫结果

2019-08-25_20-18-17

使用scrapy.FormRequest请求。

 # baiduSpider.py文件
 
import scrapy
from spiderDM.items import SpiderdmItem
 
 
class BaiduspiderSpider(scrapy.Spider):
    name = 'baiduSpider'
    allowed_domains = ['www.baidu.com']
 
    # start_urls = ['http://www.baidu.com/']
 
    # 和start_urls功能相似，是程序开始执行的方法。
    def start_requests(self):
        url = "http://www.baidu.com"
 
        headers = {
            "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.100 Safari/537.36"
        }
 
        cookies = {
            "cookie": "_zap=14ce0193-6056-4233-a292-697015b7845f"
        }
 
        item = {"data": "information"}
 
        yield scrapy.FormRequest(
            url=url,  # 请求的URL
            headers=headers,  # 请求头
            formdata=dict(  # 请求网页时发送的数据
                userName="make",
                passWord="make"
            ),
            meta=item, # 携带给回调函数的数据
            callback=self.parse,  # 回调函数
        )
 
    def parse(self, response):
        # 创建item对象
        item = SpiderdmItem()
 
        # 获取meta里的数据
        item["data"] = response.meta["data"]
        print(item["data"])
 
        # 发送数据给管道
        # yield item

运行结果相同。

两种请求方式的应用场景

scrapy.Request：主要应用GET网页数据时应用。

scrapy.FormRequest：主要应用发送POST来获取数据和登录时应用。

posted @ 2019-08-25 21:50 会走的树阅读(281) 评论(0) 收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

公告

昵称：会走的树
园龄： 6年3个月
粉丝： 2
关注： 9

2025年4月

日

一

二

三

四

五

六

	# setings文件

	# 设置只打印warning以上等级的日志信息
	LOG_LEVEL = 'WARNING'

	# baiduSpider.py文件

	import scrapy
	from spiderDM.items import SpiderdmItem


	class BaiduspiderSpider(scrapy.Spider):
	name = 'baiduSpider'
	allowed_domains = ['www.baidu.com']

	# start_urls = ['http://www.baidu.com/']

	# 和start_urls功能相似，是程序开始执行的方法。
	def start_requests(self):
	url = "http://www.baidu.com"

	headers = {
	"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.100 Safari/537.36"
	}

	cookies = {
	"cookie": "_zap=14ce0193-6056-4233-a292-697015b7845f"
	}

	item = {"data": "information"}

	yield scrapy.Request(
	url=url, # 请求的URL
	method="GET", # 请求的方式，默认GET
	headers=headers, # 请求头携带信息
	meta=item, # 需要携带给回调函数的数据
	dont_filter=False, # 是否筛选这个URL,默认False
	callback=self.parse # 设置回调函数（下一个执行的函数）
	)

	def parse(self, response):
	# 创建item对象
	item = SpiderdmItem()

	# 获取meta里的数据；注意：获取的是浅度拷贝（复制数据的引用地址），注意后面操作对值的覆盖。深度复制：deepcopy
	item["data"] = response.meta["data"]
	print(item["data"])

	# 发送数据给管道
	# yield item