网络爬虫需要注意的问题

熟悉HTTP协议:请求方式(get、post)、传参方式
代理ip
设置请求头:用户信息等
需要登录:注册账号
post、ajax:浏览器自动化工具获取
js加载:浏览器自动化工具获取
加密:浏览器自动化工具获取
验证码:使用全球鹰,云打码 api
自定义字体:有移动端就去移动端、观察规则
百度文库:文字选不中属于css功能,根据css具体情况分析
posted @ 2019-06-25 11:20  Nancy_Niu  阅读(207)  评论(0编辑  收藏  举报