12 2020 档案
摘要:前言 关于爬虫这块,以前都是凭着兴趣,零零碎碎捯饬的,第一份工作也是做的java开发;但今年因为第二份工作的原因,几乎日夜都在搞爬虫,接触和学习了很多,但一直都只是碎片化的学习,最近在对系统进行优化的时候,发现自己很多东西已经记忆模糊了,或者不熟悉,因此需要对scrapy进行一个系统性的学习和整理,
阅读全文
摘要:#背景 由于目前公司业务的发展,需要定时同步各个民宿/酒店平台(途家民宿\美团酒店\携程酒店\飞猪酒店\木鸟)大量的指定账户房东端的订单、房源以及进行及时改价、上下架、开关房等操作。作为登录认证的cookie常有失效的情况,因此急需开发一个维护账户失效自动重连机制的模块。 #大致流程图 #技术方案
阅读全文
摘要:##业务需求 -抓取美团民宿房源的房态与价格 ##接口 PC网页/手机H5/PC微信小程序的接口; ##主要的问题: 1.关于假数据: 美团民宿是通过网页间不断转发cookie的xscrf-token进行校验的,房态接口校验失败易出现假数据,解决方案是用flidder抓包后,再用requests完整
阅读全文
摘要:可以看出途家做了极多的反爬措施,无论是假数据、js加密,还是各种极高耦合性的加密参数,还是IP或者登陆校验,以至于现在取消了PC网页端的情况,但目前来看都不是很难攻克。
阅读全文