scrapy框架爬虫应用

跟着视频教程敲得，记录下来，免得忘记！

成功搭建python2.7+Scrapy 环境后，使用windows下cmd进入想要建立项目的文件夹下

1.输入命令：创建一个scrapy项目
scrapy startproject demo(你的项目名称)

2.定义item容器
Item是保存爬取到的数据的容器，其使用方法和python字典类似，并且提供了额外保护机制来避免拼写错误导致的未定义字段错误

3.编写爬虫

在cmd中进入你项目的根目录，输入命令：
Scrapy crawl dmoz 调用你命名蜘蛛名字为“dmoz”的蜘蛛去工作

Scrapy crawl dmoz -o items.json -t json
导出文件名为items.json 格式为json

# coding = utf-8
import scrapy
from tutorial.items import DmozItem
class DmozSpider(scrapy.Spider):
name = "dmoz" # 必须是唯一的，你派出去爬取网站的蜘蛛的名字
allowed_dowload = ['dmoz.org'] # （网站的域名）蜘蛛需要爬取的范围，超出这个范围就不会去爬
star_urls= [
'http://www.dmoz.org/Computers/Programing/Languages/Python/Books/'
'http://www.dmoz.org/Computers/Programing/Languages/Python/Resources'
]
# 爬取的起始路径，

def parse(self, response):
sel = scrapy.selector.Selector(response)
sites = sel.xpath('//ul[@class="directory"]/li')
items = []
for site in sites:
item = DmozItem()
item['title'] =site.xpath('a/text()').extract()
item['link'] = site.xpath('a/@href').extract()
item['desc'] = site.xpath('text()').extract()
items.append(item)
return items

posted @ 2016-07-19 09:33 进击的大乐阅读(180) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

进击的大乐

scrapy框架爬虫应用

公告