爬虫必备技巧

  • 了解HTML
    • 会使用HTML标签构造页面,知道如何解析出DOM里标签,提取想要的数据内容
  • 了解CSS
    • 了解CSS,会解析出样式里的数据内容
  • 了解JS
    • 基本JS语法,能写能读懂,并了解JS库:Jquery,Vue 等,可以对使用开发者工具调试JS
  • 了解JSON
    • 了解JSON数据,会序列化和反序列化数据,通过解析JSON对象获取数据内容
  • 了解HTTP/HTTPS
    • 能够分析请求信息和响应信息,可以通过代码构造请求
  • 会正则解析
    • 通过正则匹配出符合规则的字符串,提取想要的数据内容
  • 会数据库操作
    • 通过数据库操作对爬取数据进行存储,如:MYSQL语法
  • 会使用抓包工具
    • 浏览器F12开发者调试工具(推荐:谷歌),Network(网络)栏目可以获取抓包信息
    • 工具:Charles,Fiddler (可抓包HTTPS,抓包APP)
    • 通过抓包工具可以过滤出数据接口或者地址,并且分析请求信息和响应信息,定位数据所在的字段或者HTML标签
  • 会使用开发者工具
    • 浏览器F12开启开发者工具
    • 需要会使用开发者工具调试HTML,CSS,JS
  • 会模拟请求
    • 工具:Charles,Fiddler,Postman
    • 通过模拟请求,分析出请求需要那些必要的信息,如:参数,COOKIE,请求头,懂得怎么模拟请求就知道编码的时候如何去构造
  • 能定位数据
    • 数据在API中:前端/原生APP请求数据API,API返回数据大部分是JSON格式,然后渲染展示
    • 数据在HTML中:查看页面HTML源代码,如果源代码里有想要获取的数据,就说明在服务端已经绑定好数据在HTML里
    • 数据在JS代码中:查看页面HTML源代码,如果获取数据不在HTML里,又没有请求数据API,可以看下数据是不是绑定到JS变量里
  • 会部署
    • 可以部署到Windows或者Linux服务器,使用工具进行爬虫进程监控,然后进行定时轮训爬取
posted @ 2018-11-21 09:54  Tony老三  阅读(113)  评论(0编辑  收藏  举报