cassandra的schema version, gossip_generation 和host id

这是cassandra里面很重要的三个值;

schema version是cassandra cluster里每个node的schema版本,什么叫版本呢?因为cassandra是无中心化的,所以你很难知道所有的node上的schema是否是一致的。你不可能每次把所有的schema都拿了去比较一次。这样很不高效。所以cassandra里就有了schema version这个概念。每次执行DDL操作的时候,都会新生成一个新的schema version, 当这个DDL操作复制到其他node的时候,其他的node也会生成同样的schema version(这是因为生成的算法是固定的,并且一致的). 并且这个schema_version还是保存在system.local.schema_version column里; 所以schema version就是指schema的所有table, column, keyspace的一个版本;

那么这个schema version有什么用呢?首先很多操作都会需要检查schema version, 如果schema version不一致,那是不允许继续后面的操作的; 报出的错误是schema version disagreement;

首先,当执行DDL操作的时候,因为这个DDL复制到其他node的时间有先后,所以在执行DDL过程中的某个特定时刻,各个node上的schema version一定是存在不一致的。但是这只是非常短暂的过程。如果出现长时间不一致,那该怎么办呢?repair system keyspace; 让keyspace, tables, columns, indexes在各个node上全部一致; 如果你还不放心,那么就重启不一致的node;

如何查看schema version是否一致,执行nodetool describecluster能看到结果; 因为我们期待的结果是所有node上的schema都是一样的,所以理想期刊下,schema version在所有clusternodes上的值是一样的;

解决方法:

如果repair还是不能解决schema disggreement问题,那么可以通过重启不一致的node来解决;

source code:

在schema.java里有一个函数

public void updateVersion()

    {

        try

        {

            MessageDigest versionDigest = MessageDigest.getInstance("MD5");

            for (Row row : SystemKeyspace.serializedSchema())

            {

                if (invalidSchemaRow(row) || ignoredSchemaRow(row))

                    continue;

                // we want to digest only live columns

                ColumnFamilyStore.removeDeletedColumnsOnly(row.cf, Integer.MAX_VALUE, SecondaryIndexManager.nullUpdater);

                row.cf.purgeTombstones(Integer.MAX_VALUE);

                row.cf.updateDigest(versionDigest);

            }

            version = UUID.nameUUIDFromBytes(versionDigest.digest());

            SystemKeyspace.updateSchemaVersion(version);

        }

        catch (Exception e)

        {

            throw new RuntimeException(e);

        }

    }

在计算schema version的时候,会过滤掉expired tables. MessageDigest的介绍: https://docs.oracle.com/javase/7/docs/api/java/security/MessageDigest.html

对于特别大的cluster, 在重启之后,有可能会遇到这个问题。所以平时system keyspace下数据的一致也非常重要

有一个cassandra bug在track这个error: https://issues.apache.org/jira/browse/CASSANDRA-6862

 

posted @ 2017-07-13 22:43  jobforlife  阅读(866)  评论(0编辑  收藏  举报