远程采集

一 为什么要用远程服务器

  两个目的:对更大计算能力和灵活性的需求 和  对可变IP地址的需求

  1 避免IP地址被封杀

  建立网络爬虫的第一原则是:所有的信息都可以伪造。你可以用非本人的邮箱发送邮件,通过命令行自动化鼠标的行为。但有一件事情是不能作假的,那就是你的IP地址。

  阻止网站被采集的注意力主要集中在识别人类和机器人的行为差异上面。封杀IP地址这种矫枉过正的行为,就好像是农门不靠喷农药给庄家杀虫,而是直接用火烧彻底解决问题。它是最后一步棋,不过是一种非常有效的方法。(小猪短租)

  这种方法会遇到以下这几个问题

    IP地址访问列表很难维护。

    因为服务器需要根据IP地址访问列表去检查每个准备接受的数据包,所以检查接受数据包时会额外增加一些处理时间。多个IP地址乘以海量的数据包更会是检查时间指数级增长。

 

二 Tor代理服务器

  洋葱路由(The Onion Router)。是实现匿名通信的自由软件。是一种IP地址匿名手段。Tor是第二代洋葱路由的一种实现,用户通过Tor可以在因特网上进行匿名交流。

三 远程主机

 

posted @ 2018-04-19 18:23  骑者赶路  阅读(154)  评论(0编辑  收藏  举报