【转载】Twitter的分布式自增ID算法snowflake (Java版)

转载自 永夜微光

概述

分布式系统中,有一些需要使用全局唯一ID的场景,这种时候为了防止ID冲突可以使用36位的UUID,但是UUID有一些缺点,首先他相对比较长,另外UUID一般是无序的。

有些时候我们希望能使用一种简单一些的ID,并且希望ID能够按照时间有序生成。

而twitter的snowflake解决了这种需求,最初Twitter把存储系统从MySQL迁移到Cassandra,因为Cassandra没有顺序ID生成机制,所以开发了这样一套全局唯一ID生成服务。

结构

snowflake的结构如下(每部分用-分开):

0 - 0000000000 0000000000 0000000000 0000000000 0 - 00000 - 00000 - 000000000000

第一位为未使用,接下来的41位为毫秒级时间(41位的长度可以使用69年),然后是5位datacenterId和5位workerId(10位的长度最多支持部署1024个节点) ,最后12位是毫秒内的计数(12位的计数顺序号支持每个节点每毫秒产生4096个ID序号)

一共加起来刚好64位,为一个Long型。(转换成字符串后长度最多19)

snowflake生成的ID整体上按照时间自增排序,并且整个分布式系统内不会产生ID碰撞(由datacenter和workerId作区分),并且效率较高。经测试snowflake每秒能够产生26万个ID。

源码

(JAVA版本的源码)

/**
 * Twitter_Snowflake<br>
 * SnowFlake的结构如下(每部分用-分开):<br>
 * 0 - 0000000000 0000000000 0000000000 0000000000 0 - 00000 - 00000 - 000000000000 <br>
 * 1位标识,由于long基本类型在Java中是带符号的,最高位是符号位,正数是0,负数是1,所以id一般是正数,最高位是0<br>
 * 41位时间截(毫秒级),注意,41位时间截不是存储当前时间的时间截,而是存储时间截的差值(当前时间截 - 开始时间截)
 * 得到的值),这里的的开始时间截,一般是我们的id生成器开始使用的时间,由我们程序来指定的(如下下面程序IdWorker类的startTime属性)。41位的时间截,可以使用69年,年T = (1L << 41) / (1000L * 60 * 60 * 24 * 365) = 69<br>
 * 10位的数据机器位,可以部署在1024个节点,包括5位datacenterId和5位workerId<br>
 * 12位序列,毫秒内的计数,12位的计数顺序号支持每个节点每毫秒(同一机器,同一时间截)产生4096个ID序号<br>
 * 加起来刚好64位,为一个Long型。<br>
 * SnowFlake的优点是,整体上按照时间自增排序,并且整个分布式系统内不会产生ID碰撞(由数据中心ID和机器ID作区分),并且效率较高,经测试,SnowFlake每秒能够产生26万ID左右。
 */
public class SnowflakeIdWorker {

    // ==============================Fields===========================================
    /** 开始时间截 (2015-01-01) */
    private final long twepoch = 1420041600000L;

    /** 机器id所占的位数 */
    private final long workerIdBits = 5L;

    /** 数据标识id所占的位数 */
    private final long datacenterIdBits = 5L;

    /** 支持的最大机器id,结果是31 (这个移位算法可以很快的计算出几位二进制数所能表示的最大十进制数) */
    private final long maxWorkerId = ~(-1L << workerIdBits);

    /** 支持的最大数据标识id,结果是31 */
    private final long maxDatacenterId = ~(-1L << datacenterIdBits);

    /** 序列在id中占的位数 */
    private final long sequenceBits = 12L;

    /** 机器ID向左移12位 */
    private final long workerIdShift = sequenceBits;

    /** 数据标识id向左移17位(12+5) */
    private final long datacenterIdShift = sequenceBits + workerIdBits;

    /** 时间截向左移22位(5+5+12) */
    private final long timestampLeftShift = sequenceBits + workerIdBits + datacenterIdBits;

    /** 生成序列的掩码,这里为4095 (0b111111111111=0xfff=4095) */
    private final long sequenceMask = ~(-1L << sequenceBits);

    /** 工作机器ID(0~31) */
    private long workerId;

    /** 数据中心ID(0~31) */
    private long datacenterId;

    /** 毫秒内序列(0~4095) */
    private long sequence = 0L;

    /** 上次生成ID的时间截 */
    private long lastTimestamp = -1L;

    //==============================Constructors=====================================
    /**
     * 构造函数
     * @param workerId 工作ID (0~31)
     * @param datacenterId 数据中心ID (0~31)
     */
    public SnowflakeIdWorker(long workerId, long datacenterId) {
        if (workerId > maxWorkerId || workerId < 0) {
            throw new IllegalArgumentException(String.format("worker Id can't be greater than %d or less than 0", maxWorkerId));
        }
        if (datacenterId > maxDatacenterId || datacenterId < 0) {
            throw new IllegalArgumentException(String.format("datacenter Id can't be greater than %d or less than 0", maxDatacenterId));
        }
        this.workerId = workerId;
        this.datacenterId = datacenterId;
    }

    // ==============================Methods==========================================
    /**
     * 获得下一个ID (该方法是线程安全的)
     * @return SnowflakeId
     */
    public synchronized long nextId() {
        long timestamp = timeGen();

        //如果当前时间小于上一次ID生成的时间戳,说明系统时钟回退过这个时候应当抛出异常
        if (timestamp < lastTimestamp) {
            throw new RuntimeException(
                    String.format("Clock moved backwards.  Refusing to generate id for %d milliseconds", lastTimestamp - timestamp));
        }

        //如果是同一时间生成的,则进行毫秒内序列
        if (lastTimestamp == timestamp) {
            sequence = (sequence + 1) & sequenceMask;
            //毫秒内序列溢出
            if (sequence == 0) {
                //阻塞到下一个毫秒,获得新的时间戳
                timestamp = tilNextMillis(lastTimestamp);
            }
        }
        //时间戳改变,毫秒内序列重置
        else {
            sequence = 0L;
        }

        //上次生成ID的时间截
        lastTimestamp = timestamp;

        //移位并通过或运算拼到一起组成64位的ID
        return ((timestamp - twepoch) << timestampLeftShift) //
                | (datacenterId << datacenterIdShift) //
                | (workerId << workerIdShift) //
                | sequence;
    }

    /**
     * 阻塞到下一个毫秒,直到获得新的时间戳
     * @param lastTimestamp 上次生成ID的时间截
     * @return 当前时间戳
     */
    protected long tilNextMillis(long lastTimestamp) {
        long timestamp = timeGen();
        while (timestamp <= lastTimestamp) {
            timestamp = timeGen();
        }
        return timestamp;
    }

    /**
     * 返回以毫秒为单位的当前时间
     * @return 当前时间(毫秒)
     */
    protected long timeGen() {
        return System.currentTimeMillis();
    }

    //==============================Test=============================================
    /** 测试 */
    public static void main(String[] args) {
        SnowflakeIdWorker idWorker = new SnowflakeIdWorker(0, 0);
        for (int i = 0; i < 1000; i++) {
            long id = idWorker.nextId();
            System.out.println(Long.toBinaryString(id));
            System.out.println(id);
        }
    }
}

参考

https://github.com/twitter/snowflake

我的代码版本

import org.slf4j.Logger;
import org.slf4j.LoggerFactory;

import java.text.ParseException;
import java.text.SimpleDateFormat;
import java.time.LocalDateTime;
import java.time.format.DateTimeFormatter;
import java.util.Date;

/**
 * ID 生成算法
 * <p>
 * 时间戳的位数,实际占41位,最高位保持为0,保证long值为正数
 * 数据中心标识的位数,占2位
 * 工作机器标识的位数,占8位
 * 序列号位数,占12位
 *
 * {@link "https://github.com/twitter/snowflake"}
 * @author geekziyu
 * @version 1.0
 */
public class SnowflakeIdWorker {

    private static final Logger log = LoggerFactory.getLogger(SnowflakeIdWorker.class);
    /**
     * 时间戳实际占41位, 因为生成ID的最高为0, 这样才能保证生成的ID为正数
     */
    private static final long TIMESTAMP_BIT_COUNT = 41L;
    private static final long DATA_CENTER_ID_BIT_COUNT = 2L;
    private static final long WORKER_ID_BIT_COUNT = 8L;
    private static final long SEQUENCE_BIT_COUNT = 12L;

    private static final long WORKER_ID_LEFT_SHIFT = SEQUENCE_BIT_COUNT;
    private static final long DATA_CENTER_ID_LEFT_SHIFT = SEQUENCE_BIT_COUNT + WORKER_ID_BIT_COUNT;
    private static final long TIMESTAMP_LEFT_SHIFT = SEQUENCE_BIT_COUNT + WORKER_ID_BIT_COUNT + DATA_CENTER_ID_BIT_COUNT;

    private static final long SEQUENCE_MASK = ~(-1L << SEQUENCE_BIT_COUNT);

    private static final long MAX_WORKER_ID = ~(-1L << WORKER_ID_BIT_COUNT);
    private static final long MAX_DATA_CENTER_ID = ~(-1L << DATA_CENTER_ID_BIT_COUNT);
    private static final long MAX_TIMESTAMP = ~(-1L << TIMESTAMP_BIT_COUNT);

    private final long base;
    /**
     * 数据中心标识ID
     */
    private final long dataCenterId;
    /**
     * 工作机器标识ID
     */
    private final long workerId;
    /**
     * 当前序列值
     */
    private long sequence;
    /**
     * 最后一次请求时间戳
     */
    private long lastTimestamp = -1L;

    /**
     * 每次重新创建对象时,ID都会重新计算,因此不同天的两次启动可能出现重复ID
     *
     * @param dataCenterId 数据中心ID
     * @param workerId 工作线程ID
     */
    public SnowflakeIdWorker(long dataCenterId, long workerId) {
        this(dataCenterId, workerId, LocalDateTime.now().format(DateTimeFormatter.ofPattern("yyyy-MM-dd 00:00:00")));
    }

    public SnowflakeIdWorker(long dataCenterId, long workerId, String baseDate) {
        this(dataCenterId, workerId, baseDate, 0);
    }

    public SnowflakeIdWorker(long dataCenterId, long workerId, String baseDate, long seq) {
        // 检查机房id和机器id是否超过31 不能小于0
        if (workerId > MAX_WORKER_ID || workerId < 0) {
            throw new IllegalArgumentException(
                    String.format("worker Id can't be greater than %d or less than 0", MAX_WORKER_ID));
        }

        if (dataCenterId > MAX_DATA_CENTER_ID || dataCenterId < 0) {
            throw new IllegalArgumentException(
                    String.format("dataCenter Id can't be greater than %d or less than 0", MAX_DATA_CENTER_ID));
        }
        if (seq < 0) {
            seq = 0;
        }
        this.dataCenterId = dataCenterId;
        this.workerId = workerId;
        this.sequence = seq;
        try {
            Date startDate = new SimpleDateFormat("yyyy-MM-dd HH:mm:ss").parse(baseDate);
            this.base = startDate.getTime() <= 0 ? 0 : startDate.getTime();
        } catch (ParseException e) {
            throw new IllegalArgumentException("baseDate format is 'yyyy-MM-dd HH:mm:ss'");
        }
        long now = System.currentTimeMillis();
        if (now - base > MAX_TIMESTAMP || base > now) {
            throw new IllegalArgumentException(String.format("Difference from baseDate ('%s.000') to now ('%s') is more than %d milliseconds or less than 0.",
                    baseDate, new SimpleDateFormat("yyyy-MM-dd HH:mm:ss.SSS").format(now), MAX_TIMESTAMP));
        }
    }

    public synchronized long nextId() {
        long timestamp = timeGen();

        if (timestamp < lastTimestamp) {
            throw new IllegalStateException(String.format(
                    "Clock moved backwards. Refusing to generate id for %d milliseconds", lastTimestamp - timestamp));
        }

        if (lastTimestamp == timestamp) {
            sequence = (sequence + 1) & SEQUENCE_MASK;
            if (sequence == 0) {
                log.warn("Sequence number is exhausted. dataCenterId={}, workerId={}", dataCenterId, workerId);
                timestamp = tilNextMillis(lastTimestamp);
            }
        } else {
            sequence = 0L;
        }

        lastTimestamp = timestamp;

        return ((timestamp - base) << TIMESTAMP_LEFT_SHIFT) |
                (dataCenterId << DATA_CENTER_ID_LEFT_SHIFT) |
                (workerId << WORKER_ID_LEFT_SHIFT) |
                sequence;
    }

    /**
     * 当某一毫秒的时间,产生的id数 超过4095,系统会进入等待,直到下一毫秒,系统继续产生ID
     *
     * @param lastTimestamp 上一个时间戳
     * @return 下一毫秒的时间
     */
    private long tilNextMillis(long lastTimestamp) {
        long timestamp;
        do {
            timestamp = timeGen();
        } while (timestamp <= lastTimestamp);
        return timestamp;
    }

    //获取当前时间戳
    private long timeGen() {
        return System.currentTimeMillis();
    }

    @Override
    public String toString() {
        return "SnowflakeIdWorker{" +
                "base=" + base +
                ", dataCenterId=" + dataCenterId +
                ", workerId=" + workerId +
                ", sequence=" + sequence +
                '}';
    }
}

我的测试代码

public class SnowflakeIdWorkerTest {

    @Test(expected = IllegalArgumentException.class)
    public void test_dataCenterId() {
        new SnowflakeIdWorker(4, 0);
    }

    @Test(expected = IllegalArgumentException.class)
    public void test_workerId() {
        new SnowflakeIdWorker(0, 256);
    }

    @Test(expected = IllegalArgumentException.class)
    public void test_future_as_baseDate() {
        new SnowflakeIdWorker(0, 0, LocalDateTimeUtil.format(LocalDateTime.now().plusMinutes(1), "yyyy-MM-dd HH:mm:ss"));
    }

    @Test
    public void test_generate() {
        Set<Long> container = new HashSet<>();
        SnowflakeIdWorker idWorker = new SnowflakeIdWorker(0, 0);
        boolean noSame = true;
        for (int i = 0; i < 4000; i++) {
            long id = idWorker.nextId();
            boolean success = container.add(id);
            if (!success) {
                noSame = false;
                break;
            }
            System.out.println(Long.toBinaryString(id));
            System.out.println(id);
        }
        assertTrue("Id repeats.", noSame);
    }
}
posted @   极客子羽  阅读(77)  评论(0编辑  收藏  举报
编辑推荐:
· 开发者必知的日志记录最佳实践
· SQL Server 2025 AI相关能力初探
· Linux系列:如何用 C#调用 C方法造成内存泄露
· AI与.NET技术实操系列(二):开始使用ML.NET
· 记一次.NET内存居高不下排查解决与启示
阅读排行:
· Manus重磅发布:全球首款通用AI代理技术深度解析与实战指南
· 被坑几百块钱后,我竟然真的恢复了删除的微信聊天记录!
· 没有Manus邀请码?试试免邀请码的MGX或者开源的OpenManus吧
· 园子的第一款AI主题卫衣上架——"HELLO! HOW CAN I ASSIST YOU TODAY
· 【自荐】一款简洁、开源的在线白板工具 Drawnix
点击右上角即可分享
微信分享提示