潭州课堂25班:Ph201805201 爬虫高级 第四课 sclapy 框架 crawispider类 (课堂笔记)

 

以上内容以 spider 类 获取 start_urls 里面的网页

在这里平时只写一个,是个入口,之后 通过 xpath 生成 url,继续请求,

 

crawispider 中 多了个  rules 

rules 中的参数

  link_extractor  用来定义需要提取的连接

    allow=()     满足()中正则表达式的 url 会被提取,如果为空则全部匹配,

    deny=()     满足()中正则表达式的 url 不提取,优先级高于allow,

  callback   回调函数

  follow

 

实例:

新建个项目: scrapy startproject  tenxun2

 

cd 到 tenxun2 目录下,创建执行文件, -t crawl 指的是个模板,如果不写,默认是 spider 类的模板,

  scrapy genspider -t crawl xxx xxx.com

 

运行

运行命令: scrapy crawl ten

 

posted @ 2018-10-09 08:26  25班Ph201805201  阅读(170)  评论(0编辑  收藏  举报