网页返回 Reference #18.9c7a4217.1605834848.99a5e24
用requests构造请求爬日本某电商平台,网页返回Reference #......。
Reference #...... 是什么东西?
第一次遇到返回结果是#18.9c7a4217.1605834848.99a5e24,觉得这一串神秘的字符是某种标识,但是看不出有什么含义。每次返回都是一样的字符串,这应该是针对特定行为的对应代码。
一般携带了User-Agent去请求就可以返回正常的网页这次不行,去这个电商网站把headers里的内容全部复制用来构造自己的请求返回结果还是Reference #.....。
用requests不能得到正常的网页后果断放弃,换selenium来爬。
selenium能正常得到第一页的数据,往后数据返回Reference #......。没有好的解决方案后,百度一圈没有发现结果,google一下有了解决方法,清除这个网站的cookie和缓存,在selemin每次请求这个电商网页之后都delete_all_cookies()