上一页 1 ··· 68 69 70 71 72 73 74 75 76 ··· 141 下一页
摘要: 一.基本配置 1.项目名称 2.爬虫应用路径 SPIDER_MODULES = ['Amazon.spiders'] NEWSPIDER_MODULE = 'Amazon.spiders' 3.客户端User Agent请求头 USER_AGENT = 'Amazon (+http://www.yo 阅读全文
posted @ 2019-10-23 20:51 小小咸鱼YwY 阅读(828) 评论(2) 推荐(0) 编辑
摘要: 一.区分 根据 迭代器生成的对象是 还是 二.item 1.配置tem对象 在 文件中设置类 2.在爬虫程序中导入该类写相应的函数 三.再获得item参数后scrapy会自动执行pipelines.py文件中内容 1.settings文件进行注册 2.配置MyscrapyPipeline方法 阅读全文
posted @ 2019-10-23 19:59 小小咸鱼YwY 阅读(676) 评论(0) 推荐(0) 编辑
摘要: 一.源码 一.url(必须) :请求的地址 :str 二.callback :响应返回的回调函数(必须是类当中或者父类当中的方法),默认为 方法 :str 三.method :请求的方式 :str 四.headers :请求头 :dict 五.meta :我是这样理解的理解成传输时候一个类似容器的东 阅读全文
posted @ 2019-10-23 19:36 小小咸鱼YwY 阅读(1827) 评论(0) 推荐(0) 编辑
摘要: 一.新建文件 这个名字随意哈 方法一. 方法二 阅读全文
posted @ 2019-10-23 19:08 小小咸鱼YwY 阅读(1409) 评论(0) 推荐(1) 编辑
摘要: 一.爬虫项目类相关属性 name:爬虫任务的名称 allowed_domains:允许访问的网站 start_urls: 如果没有指定url,就从该列表中读取url来生成第一个请求 custom_settings:值为一个字典,定义一些配置信息,在运行爬虫程序时,这些配置会覆盖项目级别的配置 所以c 阅读全文
posted @ 2019-10-23 17:01 小小咸鱼YwY 阅读(731) 评论(0) 推荐(0) 编辑
上一页 1 ··· 68 69 70 71 72 73 74 75 76 ··· 141 下一页