MySQL Partition分区扫盲
MySQL从5.1.3开始支持Partition,你可以使用如下命令来确认你的版本是否支持Partition: mysql> SHOW VARIABLES LIKE '%partition%'; +-------------------+-------+ | Variable_name | Value | +-------------------+-------+ | have_partitioning | YES | +-------------------+-------+ MySQL支持 RANGE,LIST,HASH,KEY 分区类型,其中以RANGE最为常用: CREATE TABLE foo ( id INT NOT NULL AUTO_INCREMENT, created DATETIME, PRIMARY KEY( id, created ) ) ENGINE=INNODB PARTITION BY RANGE (TO_DAYS(created)) ( PARTITION foo_1 VALUES LESS THAN ( TO_DAYS('2009-01-01') ), PARTITION foo_2 VALUES LESS THAN ( TO_DAYS('2010-01-01') ) ) partition表达式中用于分区的条件,一定要是数值型的字段(比如 id) 或者 能返回数值的函数,如 TO_DAYS() , MONTH() 这样的函数 即便创建完分区,也可以在后期管理,比如说添加一个新的分区: ALTER TABLE foo ADD PARTITION ( PARTITION foo_3 VALUES LESS THAN ( TO_DAYS('2011-01-01') ) ) 或者删除一个分区L: ALTER TABLE FOO DROP PARTITION foo_3; 通过检索 information_schema 数据库,能看到我们刚刚创建的分区信息: SELECT * FROM information_schema.PARTITIONS WHERE PARTITION_NAME IS NOT NULL 此时,打开MySQL的数据目 SHOW VARIABLES LIKE 'datadir' 如果MySQL配置设置了 Innodb file per table 为 ON 的话,由于上面定义的是 InnoDB,则会发现: foo#p#foo_1.ibd foo#p#foo_2.ibd 如果创建的是MyISAM表类型的话,则会发现: foo#P#foo_1.MYD foo#P#foo_1.MYI foo#P#foo_2.MYD foo#P#foo_2.MYI 由此可知通过分区,MySQL会把数据保存到不同的数据文件里,同时索引也是分区的,相对未分区的表来说,分区后单独的数据文件和索引文件的大小都明显降低,效率则明显提升。为了验证这一点,我们做如下实验: INSERT INTO `foo` (`id`, `created`) VALUES ( 1, '2008-01-02 00:00:00' ) , ( 2, '2009-01-02 00:00:00' ); 然后执行SQL: EXPLAIN PARTITIONS SELECT * FROM foo WHERE created = '2008-01-02'; 会看到MySQL仅仅在foo_1分区执行这条查询。理论上效率肯定会快一些,至于具体多少,就看数据量了。实际应用分区的时候,我们还可以通过 DATA DIRECTORY 和 INDEX DIRECTORY 选项把不同的分区分散到不同的磁盘上,从而进步一提高系统的IO吞吐量。 重要提示:使用分区功能之后,相关查询最好都用EXPLAIN PARTITIONS过一遍,确认分区是否生效。 到底应该采用哪种分区类型呢?通常来说使用range类型是个不错的选择,不过也不尽然,比如说在主从结构中,主服务器由于很少使用SELECT查询,所以在主服务器上使用range类型的分区通常并没有太大意义,此时使用hash类型的分区相对更好一些,假设使用PARTITION BY HASH(id) PARTITIONS 10,那么当插入新数据时,会根据id把数据平均分散到各个分区上,由于文件小,所以效率高,更新操作会变得更快。 分区虽然很爽,但目前的实现还有很多限制: 主键 或 唯一索引 必须包含分区字段: 如 PRIMARY KEY(id, created) 很多时候,使用了分区就不要再使用主键,否则可能影响性能。 只能通过int类型的字段或者返回int类型的表达式来分区:通常使用YEAR或TO_DAYS等函数。 每个表最多1024个分区:不可能无限制的扩展分区,而且过度使用分区往往会消耗大量系统内存。 采用分区的表不支持外键:相关的约束逻辑必须通过程序来实现 LIST 类型 CREATE TABLE category ( cid INT UNSIGNED NOT NULL AUTO_INCREMENT PRIMARY KEY, name VARCHAR(30) NOT NULL DEFAULT '' ) PARTITION BY LIST (cid) ( PARTITION p0 VALUES IN (0,4,8,12) DATA DIRECTORY = '/data0/data' INDEX DIRECTORY = '/data1/idx', PARTITION p1 VALUES IN (1,5,9,13) DATA DIRECTORY = '/data2/data' INDEX DIRECTORY = '/data3/idx', PARTITION p2 VALUES IN (2,6,10,14) DATA DIRECTORY = '/data4/data' INDEX DIRECTORY = '/data5/idx', PARTITION p3 VALUES IN (3,7,11,15) DATA DIRECTORY = '/data6/data' INDEX DIRECTORY = '/data7/idx' ); 分成4个区,数据文件和索引文件单独存放 [ 重建分区 ] RANGE 分区重建: ALTER TABLE users REORGANIZE PARTITION p0,p1 INTO (PARTITION p0 VALUES LESS THAN (6000000)); 将原来的 p0,p1 分区合并起来,放到新的 p0 分区中。 LIST 分区重建: ALTER TABLE users REORGANIZE PARTITION p0,p1 INTO (PARTITION p0 VALUES IN(0,1,4,5,8,9,12,13)); 将原来的 p0,p1 分区合并起来,放到新的 p0 分区中。 HASH/KEY 分区重建: ALTER TABLE users REORGANIZE PARTITION COALESCE PARTITION 2; 用 REORGANIZE 方式重建分区的数量变成2,在这里数量只能减少不能增加。想要增加可以用 ADD PARTITION 方法。 [ 新增分区 ] ALTER TABLE `results` PARTITION BY RANGE ( MONTH(created) ) ( PARTITION p0 VALUES LESS THAN (1), PARTITION p1 VALUES LESS THAN (2) , PARTITION p2 VALUES LESS THAN (3) , PARTITION p3 VALUES LESS THAN (4) , PARTITION p4 VALUES LESS THAN (5) , PARTITION p5 VALUES LESS THAN (6) , PARTITION p6 VALUES LESS THAN (7) , PARTITION p7 VALUES LESS THAN (8) , PARTITION p8 VALUES LESS THAN (9) , PARTITION p9 VALUES LESS THAN (10) , PARTITION p10 VALUES LESS THAN (11), PARTITION p11 VALUES LESS THAN (12), PARTITION P12 VALUES LESS THAN MAXVALUE ); 默认分区限制分区字段必须是主键(PRIMARY KEY ) 的一部分