SQL Server 2005/2008/2012中应用分布式分区视图
自2000版本起,SQL Server企业版中引入分布式分区视图,允许你为分布在不同的SQL 实例的两个或多个水平分区表创建视图。
简要步骤如下:根据Check约束中定义的一组值把大表分割成更小的一些表。Check约束确保每个小表保存着不能保存在其他表的唯一数据。然后使用Union All创建分布式分区视图,把所有这些小表联结成单独的结果集。
这样对性能的改善是有益的,例如,如果视图根据日期分区,并用查询来返回仅保存在一个分区表中的行,那么SQL Server会智能地只搜索一个分区而不是分布式分区视图中的所有表。
我们假设一个场景,某公司成立上海和北京分公司,分别有各自的SQL Server实例来保存网站数据,都希望用一个表跟踪网站点击。点击量非常大。此时,需要一个视图以在单个视图中引用各自的表。公司希望能查询任意一个服务器,并且返回相同的数据或各自分公司的数据。
下面我们通过实例来演示这个场景的具体应用。假定有两个实例:AP4\NET2012和AP4\NET2013(本文所有示例均在SQL Server 2008环境下通过)。
一、创建链接服务器,当然也可以通过OpenRowset(http://msdn.microsoft.com/zh-cn/library/ms190312.aspx)而不创建链接服务器,并创建测试数据库和表。
/********* 创建一个分布式分区视图 ***************/ /********* 3w@live.cn 邀月 ***************/ USE master GO EXEC sp_addlinkedserver 'AP4\NET2013', N'SQL Server' GO -- 跳过远程实例架构表的检查,以提升性能,邀月注 EXEC sp_serveroption 'AP4\NET2013', 'lazy schema validation', 'true' GO --创建测试数据库 IF NOT EXISTS (SELECT name FROM sys.databases WHERE name = 'RemoteViewTest2012') BEGIN CREATE DATABASE RemoteViewTest2012 END GO --打开测试库 Use RemoteViewTest2012 GO --创建上海分公司的点击表 CREATE TABLE dbo.WebHits_ShangHai (WebHitID uniqueidentifier NOT NULL, WebSite varchar(20) NOT NULL , HitDT datetime NOT NULL, CHECK (WebSite = 'ShangHai'), CONSTRAINT PK_WebHits PRIMARY KEY (WebHitID, WebSite))
第二个实例:
/*************** 实例 AP4\NET2013(SQL Server 2008) *********/ /********* 3w@live.cn 邀月 ***************/ USE master GO EXEC sp_addlinkedserver 'AP4\NET2012', N'SQL Server' GO -- 跳过远程实例架构表的检查,以提升性能,邀月注 EXEC sp_serveroption 'AP4\NET2012', 'lazy schema validation', 'true' GO IF NOT EXISTS (SELECT name FROM sys.databases WHERE name = 'RemoteViewTest2012') BEGIN CREATE DATABASE RemoteViewTest2012 END GO --打开测试库 Use RemoteViewTest2012 GO --创建北京分公司的点击表 CREATE TABLE dbo.WebHits_BeiJing (WebHitID uniqueidentifier NOT NULL, WebSite varchar(20) NOT NULL , HitDT datetime NOT NULL, CHECK (WebSite = 'BeiJing'), CONSTRAINT PK_WebHits PRIMARY KEY (WebHitID, WebSite))
二、在两个实例中分别创建视图
/*************** 实例 AP4\NET2012(SQL Server 2008) *********/ /********* 3w@live.cn 邀月 ***************/ --打开测试库 Use RemoteViewTest2012 GO --创建分区视图 CREATE VIEW dbo.v_WebHits AS SELECT WebHitID, WebSite, HitDT FROM RemoteViewTest2012.dbo.WebHits_ShangHai UNION ALL SELECT WebHitID, WebSite, HitDT FROM [AP4\NET2013].RemoteViewTest2012.dbo.WebHits_BeiJing GO /*************** 实例 AP4\NET2013(SQL Server 2008) *********/ /********* 3w@live.cn 邀月 ***************/ --打开测试库 Use RemoteViewTest2012 GO --创建分区视图 CREATE VIEW dbo.v_WebHits AS SELECT WebHitID, WebSite, HitDT FROM RemoteViewTest2012.dbo.WebHits_BeiJing UNION ALL SELECT WebHitID, WebSite, HitDT FROM [AP4\NET2012].RemoteViewTest2012.dbo.WebHits_ShangHai GO
三、插入测试数据
我们可以选择任意一个实例中插入,下面我们选择AP4\NET2013
/*************** 实例 AP4\NET2013(SQL Server 2008) *********/ /********* 3w@live.cn 邀月 ***************/ ----要保证插入,必须打开XACT_ABORT开关,并开启分布式事务协调器,邀月注 --打开测试库 Use RemoteViewTest2012 GO SET XACT_ABORT ON INSERT dbo.v_WebHits (WebHitID, WebSite, HitDT) VALUES(NEWID(), 'ShangHai', GETDATE()) INSERT dbo.v_WebHits (WebHitID, WebSite, HitDT) VALUES(NEWID(), 'BeiJing', GETDATE())
注意,如果该实例所在的服务器上没有启用MSDTC(Microsoft 分布式事务处理协调器),会抛出一个错误:
此时在命令行中输入Net start msdtc以启用该服务。
如果还是不能正常启动MSDTC,请查阅MSDN(http://msdn.microsoft.com/zh-cn/library/aa561924%28BTS.10%29.aspx)以获取帮助。
四、进行分布式查询
此时,我们在任意一个实例查询的结果都是一致的,也正是我们想要的。
/*************** 实例 AP4\NET2013(SQL Server 2008) *********/ /********* 3w@live.cn 邀月 ***************/ /***** 分布式查询 **************/ ----AP4\NET2013上查询 --打开测试库 Use RemoteViewTest2012 GO SET XACT_ABORT ON SELECT WebHitID, WebSite, HitDT FROM dbo.v_WebHits SELECT WebHitID, WebSite, HitDT FROM [AP4\NET2012].RemoteViewTest2012.dbo.WebHits_ShangHai
----AP4\N ET2012上查询 --打开测试库 Use RemoteViewTest2012 GO SET XACT_ABORT ON SELECT WebHitID, WebSite, HitDT FROM dbo.v_WebHits SELECT WebHitID, WebSite, HitDT FROM [AP4\NET2013].RemoteViewTest2012.dbo.WebHits_BeiJing
我们欣喜地看到,SQL Server并没有在基础分区表中插入冗余数据,而是自动分发到了Check所约定的相应的表中,这得益于MSDTC的功劳。
注意:创建分布式视图的注意事项和必要条件,请看MSDN(http://msdn.microsoft.com/zh-cn/library/ms188299.aspx)。
小结:分布式分区视图允许我们跨多个SQL Server实例划分数据。对于超大型数据库和拥有大量事务和读操作的SQL Server实例来说,这种设计让我们获益良多。根据被查询的视图,SQL Server能确定只查询本地分区表是否能满足某个查询请求,远程表是否需要查询,最终,SQL Server会最大限度地减少SQL Server实例间传输的数据总量。