Scrapy数据获取方式

response的属性

# 返回请求的url
response.url

# 返回请求的状态码
response.status

# 返回携带的meta数据
response.meta

# 返回响应头的信息
response.headers

# 返回结对url
response.urljoin

response的选择器

xpath选择器

# 使用获取a标签,取第1个获取的标签,使用extract解析里面全部的数据,返回list
xpathInfo = response.xpath('//*[@id="u1"]/a').extract()
print(xpathInfo)

# 解析并只获取第一个数据
xpathInfoFirst = response.xpath('//*[@id="u1"]/a').extract_first()
print(xpathInfoFirst)

# 使用re匹配获取符号正则规则的数据,返回list
xpathInfoRe = response.xpath('//*[@id="u1"]/a').re('.*闻.*')
print(xpathInfoRe)

# 使用re匹配获取符号正则规则的第一个元素
xpathInfoReFirst = response.xpath('//*[@id="u1"]/a').re_first('.*')
print(xpathInfoReFirst)

css选择器

# 使用css选择器获取数据
cssInfo = response.css("a::text").extract()
print(cssInfo)
posted @ 2019-09-17 16:24  会走的树  阅读(460)  评论(0编辑  收藏  举报