爬虫初识

什么是爬虫?

  • 就是通过编写程序模拟浏览器上网,然后让其取互联网上爬取数据的过程

    • 关键字 : 模拟(request模块),抓取
  • 什么是HTTP?

    • 我的服务器端和客户端进行数据交互的某种形式

爬虫的分类

  • 通用爬虫 : 抓取互联网中的一整张页面
  • 聚焦爬虫 : 抓取互联网页面中局部的,指定的数据
  • 增量式爬虫 : 同来检测网站数据更新的情况,以便爬取到网站最新更新出来的数据

反爬机制

有了日常的爬虫,门户网站也不愿意免费让你随便爬取,所以网站制定和发明了很多防止你爬虫的策略和方法

反反爬策略

我们的爬虫程序要爬去门户网站的数据,但是网站

爬虫合法性探究

爬虫的行为风险的体现

  • 干扰了被访问网站的正常运营
  • 爬取了受法律保护的特定类型的数据和信息

如何规避风险

  • 严格遵守网站设置的robots协议

    • 如何查看
      • 在网站地址后面加上/robots.txt
    • robots协议 : 文本协议
      • 特性 : 放君子不防小人的协议
  • 在规避反爬措施的同时,需要优化自己的代码,避免干扰被访问网站的正常运营

  • 在使用、传播抓取到的信息时,应审查所抓取的内容,如发现属于用户的个人信息、隐私或者他人的商业秘密的,应及时停止并删除

posted @ 2019-12-11 11:17  5魁首啊666  阅读(62)  评论(0编辑  收藏  举报