摘要: 文档:一个页面就是一个文档,dom中使用document表示。 元素:页面中所有的标签都是元素,dom中使用element表示。 节点:页面中的所有内容都是节点,包括标签,属性,文本,注释等。dom中使用node表示。 dom把以上内容都看作对象。 获取dom元素方式:getElementById, 阅读全文
posted @ 2022-10-31 13:01 迪迦9723 阅读(140) 评论(0) 推荐(0)
摘要: 在item.py文件中进行数据建模 数据建模的原因:1.定义item前需要规划要抓取哪些数据,防止手误。在运行过程中,系统会自动检查 2,配合注释可以一起清晰的知道抓取哪些数据,没有定义的数据不能抓,在目标字段少的时候可以用字典代替。 3.使用scrapy的一定特定组件需要item进行支持,如scr 阅读全文
posted @ 2022-10-30 18:59 迪迦9723 阅读(60) 评论(0) 推荐(0)
摘要: 利用pipeline来处理(保存)数据 在pipeline.py文件中定义操作数据 1.定义一个管道类 2.重写管道类process_item方法 3.process_item方法处理完item返回引擎 在pipeline中class Myspider01Pipeline: def process_ 阅读全文
posted @ 2022-10-30 17:57 迪迦9723 阅读(91) 评论(0) 推荐(0)
摘要: 1,pip/pip3 install scrapy 命令框输入scrapy 报错的话/不是内部命令,先pip unstall scrapy卸载,然后再安装,找到报错信息warning,那边有一个·地址,添加到环境变量path中。再运行scrapy,如果还不是内部命令的话,跟着刚刚保存的路径,找到/s 阅读全文
posted @ 2022-10-29 23:38 迪迦9723 阅读(30) 评论(0) 推荐(0)