2018年11月15日

摘要: 用于大数据采集用的代理池 在数据采集的过程中,最需要的就是一直变化的代理ip。 自建adsl为问题是只有一个区域的IP。 买的代理存在的问题是不稳定,影响采集效率。 云vps不允许安装花生壳等,即使有花生壳,它的解析也不及时,跟不上3分钟变一次。 本项目的作用是将目前的云vps,安装代理软件,然后使 阅读全文
posted @ 2018-11-15 11:42 徐应钟 阅读(311) 评论(0) 推荐(0) 编辑
摘要: python3用于mongodb数据库之间倒数据,特别是分片和非分片之间。 本项目是一个集合一个集合的倒. 参考了logstash,对于只增不减而且不修改的数据的可以一直同步,阻塞同步,断点同步。改进的地方就是: 1、单线程改成了可以控制线程数量的多线程,可以更快速的同步。 2、增加了更为详细的日志 阅读全文
posted @ 2018-11-15 11:16 徐应钟 阅读(130) 评论(0) 推荐(0) 编辑

导航