亚马逊云平台采集转单机采集实现

    实验室的一个项目采集亚马逊的商品数据,包括单体和变体采集。最开始的一个demo是单机版的java采集软件,后面根据导师的要求,实现了云端分布式采集——实验室提供采集设备资源,多机分布式多线程采集,用户只需在前台配置所需采集的URL即可,不需要挂机采集,从而给用户提供云端的采集服务。

    项目组在实现的其中遇到了很多的技术难点,包括分布式架构的搭建,采集逻辑流程的设计以及亚马逊验证码的识别,代码的优化,经过了反复的研究,经过了几个月的测试,现已经基本实现主体功能,采集效率,客户也很满意。曾经在一天中,最大的采集数量达到将近两千万。这也是我们没有预料到的。

     前面的工作主要给用户提供的是云端的采集服务。现在又提出一个需求,能否编写一套单机版的亚马逊采集,直接提供给用户采集使用,并且需要受到我们服务器的权限限制。初步的方案是使用JavaFX构建一个Java桌面应用,里面的采集核心流程跟之前的分布式采集完全一样。

       还有另外一种思路是按照爬盟众包采集新浪微博的形式,我们给用户分配采集任务,裸机接受采集任务,众包的形式采集数据。但是这个方案跟我们目前的需要不符合,可以不考虑。

posted @ 2016-12-15 08:49  陈泽泽  阅读(434)  评论(0编辑  收藏  举报