爬虫踩坑总结
1. 抓不到接口,不要着急提取页面信息,先搜索下网络资源,没准就有人分享对应的接口信息。
2 抓取页面信息,一定先用导出curl 相关命令,一般情况下能正常返回页面信息,尽量不要selenium启动页面抓取
3. url中包含#,要去掉
4. requests请求一定要带着user-agent,否则大概率返回不了正常信息,被当成爬虫处理了。
1. 抓不到接口,不要着急提取页面信息,先搜索下网络资源,没准就有人分享对应的接口信息。
2 抓取页面信息,一定先用导出curl 相关命令,一般情况下能正常返回页面信息,尽量不要selenium启动页面抓取
3. url中包含#,要去掉
4. requests请求一定要带着user-agent,否则大概率返回不了正常信息,被当成爬虫处理了。