scrapy框架爬虫应用

跟着视频教程敲得,记录下来,免得忘记!

 

 

成功搭建python2.7+Scrapy 环境后,使用windows下cmd进入想要建立项目的文件夹下

1.输入命令:创建一个scrapy项目
scrapy startproject demo(你的项目名称)


2.定义item容器
Item是保存爬取到的数据的容器,其使用方法和python字典类似,并且提供了额外保护机制来避免拼写错误导致的未定义字段错误

 

3.编写爬虫

 

 

 

 

在cmd中进入你项目的根目录,输入命令:
Scrapy crawl dmoz 调用你命名蜘蛛名字为“dmoz”的蜘蛛去工作

 

Scrapy crawl dmoz -o items.json -t json
导出文件名为items.json 格式为json

# coding = utf-8
import scrapy
from tutorial.items import DmozItem
class DmozSpider(scrapy.Spider):
name = "dmoz" # 必须是唯一的,你派出去爬取网站的蜘蛛的名字
allowed_dowload = ['dmoz.org'] # (网站的域名)蜘蛛需要爬取的范围,超出这个范围就不会去爬
star_urls= [
'http://www.dmoz.org/Computers/Programing/Languages/Python/Books/'
'http://www.dmoz.org/Computers/Programing/Languages/Python/Resources'
]
# 爬取的起始路径,

def parse(self, response):
sel = scrapy.selector.Selector(response)
sites = sel.xpath('//ul[@class="directory"]/li')
items = []
for site in sites:
item = DmozItem()
item['title'] =site.xpath('a/text()').extract()
item['link'] = site.xpath('a/@href').extract()
item['desc'] = site.xpath('text()').extract()
items.append(item)
return items

posted @ 2016-07-19 09:33  进击的大乐  阅读(180)  评论(0编辑  收藏  举报