PostgreSQL Replication之第二章理解PostgreSQL的事务日志（1）

2015-08-19 20:32 DataBases 阅读(1016) 评论(0) 编辑收藏举报

在前面的章节中，我们已经理解了各种复制概念。这不仅仅是一个为了接下来将要介绍的东西而增强您的意识的理论概述，还将为您介绍大体的主题。

在本章，我们将更加接近实际的解决方案，并了解PostgreSQL内部是如何工作的，复制意味着什么。我们将看到所谓的事务日志(XLOG)做什么，以及它是如何运作的。XLOG在PostgreSQL复制机制中起着主要作用。理解这部分是如何工作的是必要的。

2.1 PostgreSQL如何写入数据

PostgreSQL的复制完全是关于写入数据的。因此，PostgreSQL内部写一个数据块是直接和复制，复制概念相联系及高度相关的。在本章中，我们将深入写入操作。在本章您将学习如下东西：

• PostgreSQL如何写入数据

•涉及到哪些内存和存储参数

•写入如何进行优化

•写入如何被复制

•如何保证数据一致性

一旦您读完本章，就为您理解下一章做好了准备，它将教会您如何安全地复制您的第一个数据库。

2.1.1 PostgreSQL的磁盘布局

本章我们要了解的第一个问题就是PostgreSQL的磁盘布局。了解磁盘布局对检查一个现有的安装是非常有帮助的，对设计一个高效率，高性能的安装也是很有帮助的。

与其他数据库系统相比，如Oracle,PostgreSQL依靠文件系统来存储数据。PostgreSQL不使用原始设备。这背后的哲学是如果一个文件系统的开发者很好地完成了他或她的工作，就没有必要一遍又一遍地重新实现文件系统的功能。

查看数据目录

为了理解PostgreSQL使用的文件系统层，我们可以看一下在数据目录(由initdb在安装时创建)下我们能看到什么：

[hs@paulapgdata]$ ls -l

total 92

-rw------- 1 hs staff 4 Feb 11 18:14 PG_VERSION

drwx------ 6 hs staff 4096 Feb 11 18:14 base

drwx------ 2 hs staff 4096 Feb 11 18:14 global

drwx------ 2 hs staff 4096 Feb 11 18:14 pg_clog

-rw------- 1 hs staff 4458 Feb 11 18:14 pg_hba.conf

-rw------- 1 hs staff 1636 Feb 11 18:14 pg_ident.conf

drwx------ 4 hs staff 4096 Feb 11 18:14 pg_multixact

drwx------ 2 hs staff 4096 Feb 11 18:14 pg_notify

drwx------ 2 hs staff 4096 Feb 11 18:14 pg_serial

drwx------ 2 hs staff 4096 Feb 11 18:14 pg_snapshots

drwx------ 2 hs staff 4096 Feb 11 18:19 pg_stat_tmp

drwx------ 2 hs staff 4096 Feb 11 18:14 pg_subtrans

drwx------ 2 hs staff 4096 Feb 11 18:14 pg_tblspc

drwx------ 2 hs staff 4096 Feb 11 18:14 pg_twophase

drwx------ 3 hs staff 4096 Feb 11 18:14 pg_XLOG

-rw------- 1 hs staff 19630 Feb 11 18:14 postgresql.conf

-rw------- 1 hs staff 47 Feb 11 18:14 postmaster.opts

-rw------- 1 hs staff 69 Feb 11 18:14 postmaster.pid

您会看到一系列的文件和目录，这都是运行一个数据库实例的所需要的。让我们看看其中的细节。

PG_VERSION-PostgreSQL的版本号

在启动时该文件会告诉文件系统，数据目录是否包含正确的版本号。请注意：只有主版本号在这个文件中。在同一个主版本下的两个不同的小版本之间进行复制是可能的，也是容易的。

[hs@paulapgdata]$ cat PG_VERSION

9.2

该文件是可读的纯文本。

base-实际数据目录

在数据目录中，base目录是最重要的目录之一。他实际上包含了真实数据(系统表，索引等)。在base目录内部，每个数据库有它自己的子目录：

[hs@paula base]$ ls -l

total 24

drwx------ 2 hs staff 12288 Feb 11 18:14 1

drwx------ 2 hs staff 4096 Feb 11 18:14 12865

drwx------ 2 hs staff 4096 Feb 11 18:14 12870

drwx------ 2 hs staff 4096 Feb 11 18:14 16384

我们可以很容易地把这些目录连接到我系统内的数据库，值得注意的是PostgreSQL使用数据库的对象ID。这和使用名称相比有许多优势，因为对象ID从来不会改变，并且为抽象各种问题提供一个好的方法，例如在服务器上使

用不同的字符集的问题等等。

test=# SELECT oid, datname FROM pg_database;

oid |datname

-------+-----------

1 | template1

12865 | template0

12870 | postgres

16384 | test

(4 rows)

现在，我们可以看到数据在这些特殊的数据库目录内是如何存储的。在PostgreSQL中，每个表关系到(至少)一个数据文件。让我创建一个表，看看会发生什么：
test=# CREATE TABLE t_test (id int4);

CREATE TABLE

我们可以检查系统表来获取所谓的relfilenode，这代表磁盘上的存储文件名称：

test=# SELECT relfilenode, relname

FROM pg_class

WHERE relname = 't_test';

relfilenode | relname

-------------+---------

16385 | t_test

(1 row)

一旦表被创建，PostgreSQL就会在磁盘上创建一个空文件：

[hs@paula base]$ ls -l 16384/16385*

-rw------- 1 hs staff 0 Feb 12 12:06 16384/16385

越来越多的数据文件

表有时候会相当大，因此，把一个表的所有相关的数据都放到单个文件或多或少是不可能的。为了解决这个问题，每添加1GB的数据PostgreSQL就会额外添加一个文件。

因此，如果一个叫16385的文件大小超过1GB，就会有一个叫16385.1的文件。一旦这个文件被填满，您就会看到一个名为16385.2的文件，等等。通过这种方式，在某些罕见的操作系统或嵌入式设备上，PostgreSQL中的表可以安全可靠地扩大规模，而不必担心低层文件系统限制。

在块中执行I/O

为了提高I/O性能，PostgreSQL总是以8k大小的块执行I/O.因此，您会看到您的数据文件总是以8k的步长增长。当谈到物理复制，您必须确保双方(master 和slave)都用相同的块大小进行编译。

[除非您明确地按您自己使用的不同的块大小来编译PostgreSQL，您可以一直接受数据块一致且准确的8k大小的事实。]

关系forks

除了在前面段落讨论的数据文件之外，PostgreSQL会实行相同的文件号创建额外的文件。截至目前，这些文件用来存储表(FreeSpaceMap)内部空闲空间信息，所谓的Visibility Map等等。以后，将会有更多类型的关系forks可能被添加进来。

global-全局数据

global包含全局系统表。这个目录较小，您不应该期望会有过多的存储消耗。

处理独立的数据文件

用户经常忘记一件事情：单个PostgreSQL数据文件基本上没有多少价值。如果您只有一个数据文件，不可能可靠地存储数据；容易地试图提取单个文件中的数据是毫无希望的猜测。因此，为了读数据，您需要一个完整的实例。

pg_clog-提交日志

提交日志是一个工作数据库实例的一个重要组成部分。它存储系统上进行的事务的状态。一个事务有四种状态(TRANSACTION_STATUS_IN_PROGRESS, TRANSACTION_STATUS_COMMITTED,

TRANSACTION_STATUS_ABORTED, and TRANSACTION_STATUS_SUB_COMMITTED)，如果一个事物的提交日志的状态是不可用，PostgreSQL将不知道是否应该被看到。

如果一个数据库实例的提交日志由于某种原因被破坏(也许是因为文件系统损坏)，您可以提前一些有趣的时间。

[如果提交日志被损坏，我们建议给和数据库实例(文件系统)做快照，伪造提交日志，它有时有助于从有问题的数据库实例获得一个合理数量的数据。]

pg_hba.conf-基于主机的网络配置

pg_hba.conf文件配置PostgreSQL的内部防火墙，代表了一个PostgreSQL集群中的两个最重要的配置文件之一。它允许用户定义任何基于请求来源的各种认证的类型。一个数据库管理员，了解pg_hba.conf文件是至关重要的，因为这个文件决定是否允许一个slave连接到master。如果您碰巧错过了这里的东西。您可能会在slave的日志中看到错误信息(例如：没有pg_hba.conf的许可…)

pg_ident.conf-身份认证

pg_ident.conf文件可和pg_hba.conf文件结合用于配置身份认证。

pg_multixact-多事务状态数据

多事物日志管理器可以有效地处理共享行锁。此目录中和复制相关的东西没有实际的影响。

pg_notify-监听/通知数据

在这个目录中，系统存储关于监听/通知的信息(异步后端接口)。和复制没有实际的影响。

pg_serial-关于提交序列化事务的信息

序列化事务的信息存储在这里。我们必须在磁盘上存储序列化事务提交信息，以确保长时间运行的事务不会膨胀内存。内部采用一个简单的SLRU结构来跟踪这些事务。

pg_snapshot-输出快照

这是一个由PostgreSQL快照管理需要的信息组成的文件。

在某些情况下，快照必须输出到磁盘，以避免进入内存。崩溃之后，那些快照将自动被清理。

pg_stat_tmp-临时统计数据

临时统计数据存储在这个文件中。该信息被大多数pg_stat_*系统视图所需要(因此，也为低层函数提供原始数据)。

pg_subtrans-子事务数据

在这个目录中，我们存储有关子事务的信息。pg_subtrans(和pg_clog)目录永久性的(在磁盘上)存储事务相关信息。有一定限制数目的内存叶保存在内存中，因此，在很多情况下，没有必要实际从磁盘读取。但是如果有一个长期运行的事务或一个打开的在后端闲置的事务，从磁盘读写该信息可能是必要的。它们也允许通过服务器重启确保信息永久性存储。

pg_tblspc-到表空间的符号链接

pg_tblspc是一个非常重要的目录。在PostgreSQL中，一个表空间是一个可以替代的存储位置，由一个保存数据的目录来表示。

这里最重要的是：如果一个数据库实例被完全复制，我们不能简单地依靠一个事实：集群中的所有服务器都使用同样的磁盘布局和相同的存储硬件。这里存储这样一个场景：一个master比一个slave需要更多的I/O能力，这个slave可能只是身边充当备份或备用的。为了让用户处理不同的磁盘布局，PostgreSQL将把符号链接到pg_tblspc关联目录。该数据库将盲目地追随那些符号链接找到这些表空间，无论它们在哪里。

这为最终用户提供了巨大的力量和灵活性。一般而言，控制存储对复制以及性能都是必要的。请记住，这些符号链接只能事后进行更改。应该仔细考虑。

(我们建议使用仅在本节所描述的策略当他真正需要的时候。对于大多数的设置，在master和slave上绝对推荐使用相同的文件系统布局。这样可以大大减少复杂性。)

pg_twophase – 有关预处理语句的信息

PostgreSQL必须存储有关两阶段提交的信息。尽管两阶段提交是一个重要的特征，该目录本身对普通的系统管理员来说不太重要。

pg_XLOG – PostgreSQL 的事务日志(WAL)

PostgreSQL事物日志是本章我们必须要讨论的基本目录。pg_XLOG包含所谓XLOG的所有文件。如果在过去的时间里您有使用PostgreSQL，您可能熟悉术语WAL(Write Ahead Log)。XLOG和WAL是一个事物的两个名字。对事务日志也同样适用。这三个术语被广泛地应用，知道他们是一样的意思是非常重要的。

pg_XLOG目录一般是这样的：

[hs@paulapg_XLOG]$ ls -l

total 81924