摘要: #前言 阅读全文
posted @ 2021-01-08 11:06 鞠政_小鞠 阅读(279) 评论(1) 推荐(0)
摘要: ##前言 整理在实际使用过程中总结的关于Scrapy一些使用经验,非基础教程,仅做个人学习笔记之用。 ##关于setting/custom_settings一些设置 ###第一部分:基本配置 1、项目名称,默认的USER_AGENT由它来构成,也作为日志记录的日志名 BOT_NAME = 'sync 阅读全文
posted @ 2021-01-08 11:04 鞠政_小鞠 阅读(177) 评论(0) 推荐(0)
摘要: 前言 关于爬虫这块,以前都是凭着兴趣,零零碎碎捯饬的,第一份工作也是做的java开发;但今年因为第二份工作的原因,几乎日夜都在搞爬虫,接触和学习了很多,但一直都只是碎片化的学习,最近在对系统进行优化的时候,发现自己很多东西已经记忆模糊了,或者不熟悉,因此需要对scrapy进行一个系统性的学习和整理, 阅读全文
posted @ 2020-12-25 19:00 鞠政_小鞠 阅读(168) 评论(0) 推荐(0)
摘要: #背景 由于目前公司业务的发展,需要定时同步各个民宿/酒店平台(途家民宿\美团酒店\携程酒店\飞猪酒店\木鸟)大量的指定账户房东端的订单、房源以及进行及时改价、上下架、开关房等操作。作为登录认证的cookie常有失效的情况,因此急需开发一个维护账户失效自动重连机制的模块。 #大致流程图 #技术方案 阅读全文
posted @ 2020-12-25 15:02 鞠政_小鞠 阅读(773) 评论(0) 推荐(0)
摘要: ##业务需求 -抓取美团民宿房源的房态与价格 ##接口 PC网页/手机H5/PC微信小程序的接口; ##主要的问题: 1.关于假数据: 美团民宿是通过网页间不断转发cookie的xscrf-token进行校验的,房态接口校验失败易出现假数据,解决方案是用flidder抓包后,再用requests完整 阅读全文
posted @ 2020-12-25 11:41 鞠政_小鞠 阅读(1204) 评论(0) 推荐(0)
摘要: 可以看出途家做了极多的反爬措施,无论是假数据、js加密,还是各种极高耦合性的加密参数,还是IP或者登陆校验,以至于现在取消了PC网页端的情况,但目前来看都不是很难攻克。 阅读全文
posted @ 2020-12-24 18:28 鞠政_小鞠 阅读(990) 评论(1) 推荐(0)