C语言 c++ php mysql nginx linux lnmp lamp lanmp memcache redis 面试 笔记 ppt 设计模式 问题 远程连接

时间戳实现增量数据同步

数据同步
1、靠记录中本身的时间戳来增量更新

  分页获取必须排序(时间戳), 排序后也会出错(会出现记录跳过的情况),中途脚本停止更是会出错
  非分页的会出问题,脚本中断更会出问题(时间戳不能保证是从低到高)

  解决方法:

    1、分页条数为1、并排序但效率不高
    2、分页采用每次获取比当前时间戳大的的limit条数,再不断变化时间戳(会有问题)
    3、数据一次性全部取出来排序处理(适用于小数据量情况)

 

2、时间戳存在缓存中,等全部处理完再更新时间戳
  普通分页仍旧会出现记录跳过的情况
  非分页的则不会出现问题(因为时间戳是最后才更新),脚本中断也不会出问题。

 

总结:
1、时间戳存在缓存中
  1、减少计算
  2、最后更新时间戳更不容易出问题,顶多会重复处理

2、每次运行 取缓存中的时间(>=)和脚本当时的时间(<)数据,运行完成后设置当前时间到缓存

 

 


 

 

历史数据的增量同步(不会更改的数据)

1、用自增主键是最完美的,因为主键不会重复

  where id>x order by id asc limit xx

2、时间戳

  错误的示范:where insert_time>lastmax_timestamp order by timestamp  asc limit xx 

  错误1:> 应该是>=, 但是如果用>=,会一直可以取出数据,陷入无限循环中

   错误2: 由于用了limit,limit中的可能有相同时间戳数据,并且前面用的>会丢失数据

 

  正确:where insert_time>lastmax_timestamp and insert_time<=current_timestamp  order by timestamp  asc limit xx 

     不断调整 lastmax_timestamp ,可以每次运行完就把 lastmax_timestamp  存储redis

    对于中间数据会变的,一定不能用  offset,limit(建议放弃这种方式) 

    

    之所以需要 insert_time<=current_timestamp 是因为时间戳可以相同,但主键不会重复

 

    注意:该方式同样适用于时间戳变化中的方式

 

  对于分表的可以在取到为空的时候,可以重新设定时间进行跨表操作

 

posted on 2015-03-05 23:46  思齐_  阅读(8696)  评论(0编辑  收藏  举报