如何生成唯一的server Id，server_id为何不能重复？

我们都知道MySQL用server-id来唯一的标识某个数据库实例，并在链式或双主复制结构中用它来避免sql语句的无限循环。这篇文章分享下我对server-id的理解，然后比较和权衡生成唯一server-id的几种方式。

server_id的用途

简单说来，server_id有两个用途：
1. 用来标记binlog event的源产地，就是SQL语句最开始源自于哪里。
2. 用于IO_thread对主库binlog的过滤。如果没有设置 replicate-same-server-id=1 ，那么当从库的io_thread发现event的源与自己的server-id相同时，就会跳过该event，不把该event写入到relay log中。从库的sql_thread自然就不会执行该event。这在链式或双主结构中可以避免sql语句的无限循环。

注意：相同server-id的event在io_thread这一层就过滤了；而对于replicate-(do|ignore)-等规则，则是在sql_thread这一层过滤的。io_thread和sql_thread都有过滤的功能。

server_id为何不能重复

在同一个集群中，server-id一旦重复，可能引发一些诡异问题。
看看下面两种情况：

图1：主库与从库的server-id不同，但是两个或多个从库的server-id相同

这种情况下复制会左右摇摆。当两个从库的server-id相同时，如果从库1已经连接上主库，此时从库2也需要连接到主库，发现之前有server-id相同的连接，就会先注销该连接，然后重新注册。
参考下面的代码片段：

repl_failsafe (register_slave) download

int register_slave(THD* thd, uchar* packet, uint packet_length)
{
  int res;
  SLAVE_INFO *si;
...
  if (!(si->master_id= uint4korr(p)))
    si->master_id= server_id;
  si->thd= thd;
  pthread_mutex_lock(&LOCK_slave_list);
/* 先注销相同server-id的连接*/
  unregister_slave(thd,0,0); 
/* 重新注册*/
  res= my_hash_insert(&slave_list, (uchar*) si);
  pthread_mutex_unlock(&LOCK_slave_list);
  return res;
...
}

两台从库不停的注册，不停的注销，会产生很多relay log文件，查看从库状态会看到relay log文件名不停改变，从库的复制状态一会是yes一会是正在连接中。

图2：链式或双主结构中，主库与从库的server-id相同

从库1同时又是relay数据库，它能正确同步，然后把relay-log内容重写到自己的binlog中。当server-id为100的从库2 io线程获取binlog时，发现所有内容都是源自于自己，就会丢弃这些event。因此从库2无法正确同步主库的数据。只有直接写relay server的event能正确同步到从库2。
上面两种情况可以看到，在同一个replication set中，保持server-id的唯一性非常重要。

server_id的动态修改

无意中发现 server-id 竟然是可以动态修改的，可别高兴的太早。好处是，上面图1的情况下，直接修改其中一个从库的server-id就可以解决server-id冲突的问题。坏处很隐蔽，如下图的结构：

现在假设active-master因为某种原因与passive-master的同步断开后，passive-master上进行了一些ddl变更。然后某dba突发奇想把passive-master的server-id修改为400。当双master的复制启动后，那些之前在passive-master上执行的server-id为200的ddl变更，会从此陷入死循环。如果是 alter table t engine=innodb ，它会一直不停，可能你会发现。但是像 update a=a+1； 这样的sql，你很难发现。当然这种场景只是我的杜撰，这儿有个更真实的例子主备备的两个备机转为双master时出现的诡异slave lag问题。
举这两个例子只是想说明修改server-id有点危险，最好不要去修改，那么能一步到位生成它吗？