会员
周边
众包
新闻
博问
闪存
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
dijia9723
博客园
首页
新随笔
联系
订阅
管理
2022年10月31日
dom
摘要: 文档:一个页面就是一个文档,dom中使用document表示。 元素:页面中所有的标签都是元素,dom中使用element表示。 节点:页面中的所有内容都是节点,包括标签,属性,文本,注释等。dom中使用node表示。 dom把以上内容都看作对象。 获取dom元素方式:getElementById,
阅读全文
posted @ 2022-10-31 13:01 迪迦9723
阅读(140)
评论(0)
推荐(0)
2022年10月30日
数据建模
摘要: 在item.py文件中进行数据建模 数据建模的原因:1.定义item前需要规划要抓取哪些数据,防止手误。在运行过程中,系统会自动检查 2,配合注释可以一起清晰的知道抓取哪些数据,没有定义的数据不能抓,在目标字段少的时候可以用字典代替。 3.使用scrapy的一定特定组件需要item进行支持,如scr
阅读全文
posted @ 2022-10-30 18:59 迪迦9723
阅读(60)
评论(0)
推荐(0)
scrapy保存数据
摘要: 利用pipeline来处理(保存)数据 在pipeline.py文件中定义操作数据 1.定义一个管道类 2.重写管道类process_item方法 3.process_item方法处理完item返回引擎 在pipeline中class Myspider01Pipeline: def process_
阅读全文
posted @ 2022-10-30 17:57 迪迦9723
阅读(91)
评论(0)
推荐(0)
2022年10月29日
scrapy爬虫框架
摘要: 1,pip/pip3 install scrapy 命令框输入scrapy 报错的话/不是内部命令,先pip unstall scrapy卸载,然后再安装,找到报错信息warning,那边有一个·地址,添加到环境变量path中。再运行scrapy,如果还不是内部命令的话,跟着刚刚保存的路径,找到/s
阅读全文
posted @ 2022-10-29 23:38 迪迦9723
阅读(30)
评论(0)
推荐(0)
公告