scrapy 用法总结

待更新:

建立python开发虚拟环境 virtualenv  mkvirtualenv --python=the-path-to-the-python-you-want-to use 

 

安装:

使用pip install scrapy就可以了,然后自动安装成功

新建scapy项目:

进入需要新建项目的路径

然后 进入虚拟环境 workon virtualenv-name或者进入到虚拟环境下的目录,然后用activate

然后 scrapy startproject project-name 就可以了

然后用pycharm打开该项目,这个时候scrapy项目是空的

进入到项目文件夹下

然后 scarpy genspider name url

进入pycharm右键同步

可以为该项目添加虚拟环境的解释器,到时候可以一起打包(待验证)

sys.path.append()
os.path.dirname()
os.path.abspath(__file__)
from scrapy.cmdline import execute

execute(['scrapy','crawl','name'])

设置settings.py里面的24行 ROBOTSTXT_OBEY = FALSE

基本的调试,断点,

xpath的基本语法

从chrome审查中直接获取节点的xpath路径,右键即可,可以点击审查的元素找页面中的元素,也可以反着来

 

scarpy 快速调试 : scrapy shell url

extract()[0]   和 extract_first()的区别: 前者如果是空列表,会报错,应该是range错误把,后者可以简化异常处理,

 

xpath 选择器, css选择器

item, 如何定义自己的item,如何给item中的属性赋值,如何进行传递,如何存入数据库

pipeline 添加自己定义pipeline, pipeline里面定义的pipeline类会默认处理所有的item,这个在后面的设置中也要注意

setting中设置pipeline的执行顺序

 

利用item.loader进行选择和赋值 from scrapy.loader import ItemLoader        , add_css(),add_value(),这里返回的都是list

item定义中field中的参数:  from scrapy.loader.processors import MapCompose,TakeFirst

input_processor = MapComose(self_define_function) 这里可以连续调用多个对属性的处理函数,这里处理的是list中的每个值

TakeFirst : output_processor = TakeFirst() 这样就只取list中的第一个元素了

不用为每个字段都加:

可以自己继承一个ItemLoader类,然后将 default_output_processor 设置成 TakeFirst(),之后在自己的爬取逻辑中使用自己的类即可

用于下载图片的字段,图片的url只能是list,这个要注意,可以直接覆盖out_processor即可,同时要注意的是 在存入数据库的时候字段类型问题

 

同样提过了一个 Join, 可以将list中的内容进行连接 Join(",")

 代码重用:为具有相同操作的字段写一个共同的处理函数,然后通过 input_processor 进行设置, 比如说同样的正则表达式匹配和同样的转整数的操作

 

 

 

终端调试: scrapy shell url

ipython 安装 pip install ipython

出现了问题,就卸载再装吧(反正成功了,但是还是不知道问题在哪,无语)

 

posted @ 2019-05-17 00:11  忘记时间zms  阅读(363)  评论(0编辑  收藏  举报