潭州课堂25班：Ph201805201 爬虫高级第四课 sclapy 框架 crawispider类 (课堂笔记）

以上内容以 spider 类获取 start_urls 里面的网页

在这里平时只写一个，是个入口，之后通过 xpath 生成 url，继续请求，

crawispider 中多了个 rules

rules 中的参数

　　link_extractor 用来定义需要提取的连接

　　　　allow=() 　　　　满足（）中正则表达式的 url 会被提取，如果为空则全部匹配，

　　　　deny=()　　　　 满足（）中正则表达式的 url 不提取，优先级高于allow,

　　callback 回调函数

　　follow

实例：

新建个项目： scrapy startproject tenxun2

cd 到 tenxun2 目录下，创建执行文件， -t crawl 指的是个模板，如果不写，默认是 spider 类的模板，

　　scrapy genspider -t crawl xxx xxx.com

运行

运行命令： scrapy crawl ten

posted @ 2018-10-09 08:26 25班Ph201805201 阅读(170) 评论(0) 编辑收藏举报

刷新页面返回顶部

gdwz922