爬虫必备技巧

了解HTML
- 会使用HTML标签构造页面，知道如何解析出DOM里标签，提取想要的数据内容
了解CSS
- 了解CSS，会解析出样式里的数据内容
了解JS
- 基本JS语法，能写能读懂，并了解JS库：Jquery，Vue 等，可以对使用开发者工具调试JS
了解JSON
- 了解JSON数据，会序列化和反序列化数据，通过解析JSON对象获取数据内容
了解HTTP/HTTPS
- 能够分析请求信息和响应信息，可以通过代码构造请求
会正则解析
- 通过正则匹配出符合规则的字符串，提取想要的数据内容
会数据库操作
- 通过数据库操作对爬取数据进行存储，如：MYSQL语法
会使用抓包工具
- 浏览器F12开发者调试工具(推荐：谷歌),Network(网络)栏目可以获取抓包信息
- 工具：Charles，Fiddler (可抓包HTTPS，抓包APP)
- 通过抓包工具可以过滤出数据接口或者地址，并且分析请求信息和响应信息，定位数据所在的字段或者HTML标签
会使用开发者工具
- 浏览器F12开启开发者工具
- 需要会使用开发者工具调试HTML，CSS，JS
会模拟请求
- 工具：Charles，Fiddler，Postman
- 通过模拟请求，分析出请求需要那些必要的信息，如：参数，COOKIE，请求头，懂得怎么模拟请求就知道编码的时候如何去构造
能定位数据
- 数据在API中：前端/原生APP请求数据API，API返回数据大部分是JSON格式，然后渲染展示
- 数据在HTML中：查看页面HTML源代码，如果源代码里有想要获取的数据，就说明在服务端已经绑定好数据在HTML里
- 数据在JS代码中：查看页面HTML源代码，如果获取数据不在HTML里，又没有请求数据API，可以看下数据是不是绑定到JS变量里
会部署
- 可以部署到Windows或者Linux服务器，使用工具进行爬虫进程监控，然后进行定时轮训爬取

posted @ 2018-11-21 09:54 Tony老三阅读(113) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

爬虫必备技巧

公告