scrapy 提取XML文档
import requests
import scrapy
url = 'http://xml文件的地址'
# 获取 xml 文件
res = requests.get(url)
# 替换,就是这么暴力
text = res.text.replace('<![CDATA[', '').replace(']]>', '')
# 创建一个 Selector 类的实例
sel = scrapy.Selector(text=text)
# 使用 xpath 选择器
year_list = sel.xpath('//year/text()').extract()