雪花算法 SnowFlake 内部结构【分布式ID生成策略】
更多内容,前往 IT-BLOG
一、前言
如何在分布式集群中生产全局唯一的 ID?
【方案一】UUID:UUID是通用唯一识别码 (Universally Unique Identifier),在其他语言中也叫GUID,可以生成一个长度 32位的全局唯一识别码。UUID 虽然可以保证全局唯一,但是占32位而且无序,入库性能比较差。
举个例子:MySQL 使用 InnoDB 存储引擎,底层索引使用的B+树索引。索引是按照顺序在叶子节点分布的,如果按顺序插入索引,则会使用顺序IO依次写入磁盘,也不会出现页分裂和浪费等问题,性能也比较高。但如果使用无序的 UUID,就会导致磁盘臂不按顺序移动,且会导致页分裂和不饱和的节点导致数据库插入性能降低。
【方案二】数据库自增主键:在分布式系统中可以用DB proxy请求不同的分库,每个分库设置不同的初始值,步长和分库数量相等。如下:DB1生成的ID是1,4,7,10,13....,DB2生成的ID是2,5,8,11,14.....
这样也不是很好,ID 的生成对数据库严重依赖,不但影响性能,而且一旦数据库挂掉,服务将变的不可用。
二、SnowFlake
SnowFlake 是 Twitter最初把存储系统从 MySQL迁移到 Cassandra时,因为 Cassandra没有顺序ID生成机制,所以开发了这样一套开源的分布式全局唯一的 ID生成算法,结果是一个 long型的ID。这种方案把 64-bit分别划分成多段,分开来标识机器ID、时间等。其核心思想是:使用 41bit作为毫秒数,10bit作为机器的ID(5个bit是数据中心,5个bit的机器ID),12bit作为毫秒内的流水号,最后还有一个符号位,永远是0。SnowFlake 的结构图如下所示:
三、SnowFlake的优势和劣势
【SnowFlake算法的优点】:整体上按照时间自增排序,并且整个分布式系统内不会产生ID碰撞(由数据中心ID和机器ID作区分),并且效率较高,经测试,SnowFlake每秒能够产生26万ID左右。
【1】生成ID时不依赖于DB,完全在内存生成,高性能高可用;
【2】ID呈趋势递增,后续插入索引树的时候性能较好;
【SnowFlake算法的缺点】:依赖于系统时钟的一致性。如果某台机器的系统时钟回拨,有可能造成ID冲突,或者ID乱序。针对此,美团做出了改进:链接